聚合框架作为 Azure DocumentDB 中的存储过程

一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

  • 新项目:《从零手撸:仿小红书(微服务架构)》 正在持续爆肝中,基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...点击查看项目介绍 ;
  • 《从零手撸:前后端分离博客项目(全栈开发)》 2 期已完结,演示链接: http://116.62.199.48/ ;

截止目前, 星球 内专栏累计输出 63w+ 字,讲解图 2808+ 张,还在持续爆肝中.. 后续还会上新更多项目,目标是将 Java 领域典型的项目都整一波,如秒杀系统, 在线商城, IM 即时通讯,权限管理,Spring Cloud Alibaba 微服务等等,已有 2200+ 小伙伴加入学习 ,欢迎点击围观

坏消息 :DocumentDB 不包含聚合功能。

好消息 :DocumentDB 包含存储过程,documentdb-lumenize 使用它来添加远远超过您习惯使用 SQL 的聚合功能。

正如 Michael Stonbraker 所说,他不仅是一个而是三个非常成功的数据库(Postgres、Vertica 和 VoltDB)的天才创造者,他说:“将代码转移到数据比反过来更好。” VoltDB 旨在执行 Java 语言 ACID 事务性存储过程,该存储过程在与数据相同的内存空间中运行,具有巨大的性能和一致性优势。好吧,Microsoft Azure 的 DocumentDB 采用了类似的方法,只是它是一个使用 JSON 的 NoSQL 数据存储,并且您使用 JavaScript(在我的例子中是 CoffeeScript)编写存储过程。

利用这种能力,我移植了 Lumenize 库的聚合引擎,它是我在卡内基梅隆大学攻读博士学位时创建的,可以在 DocumentDB 内部运行。这会立即升级 DocumentDB,使其具有比最先进的数据库更强大的声明性聚合(包括完整的 OLAP 多维数据集)功能。

一个简单的 groupBy 例子

假设这是您集合中的唯一数据。


 [
  {id: 1, value: 10}
  {id: 1, value: 100}
  {id: 2, value: 20}
  {id: 3, value: 30}
]

现在,让我们用以下内容调用多维数据集:


 [
  {id: 1, value: 10}
  {id: 1, value: 100}
  {id: 2, value: 20}
  {id: 3, value: 30}
]

调用多维数据集存储过程后,您应该希望它位于响应的 savedCube.cellsAsCSVStyleArray 参数中。请注意,即使未指定,也会始终计算 _count 指标。


 [
  {id: 1, value: 10}
  {id: 1, value: 100}
  {id: 2, value: 20}
  {id: 3, value: 30}
]

完整的 OLAP 多维数据集功能

groupBy 只是一个一维的 OLAP 多维数据集,上面的示例只是使用了一点语法糖来快速配置这个一维的 OLAP 多维数据集。然而,底层引擎是一个快速、轻便、灵活、以声明方式配置的 OLAP Cube,具有强大的分层汇总支持。它可以从 node.js 项目以及 .NET 项目或使用 DocumentDB 的 REST API 的任何其他平台使用。

您可以在 documentdb-lumenize 的 GitHub 页面 上阅读有关此功能的所有信息以及有关如何使用它的所有详细信息。

这项工作仍在进行中,所以请给我您的反馈。

相关文章