在他们的 工程博客 上,雅虎宣布欢迎 Druid 加入其数据分析工具箱。该公司在十年前创建了 Hadoop,然后将其交给 Apache 基金会,它引用了 MapReduce 风格查询的缓慢、可访问性以及对“adhoc slice-n-dice”的渴望:将数百亿个事件扩展到一个天”和“实时摄取数据”作为采用它们的原因。
Druid 被描述为“专为 OLAP 查询设计的面向列的分布式流式分析数据库”,Druid 忠实于雅虎对开源项目的喜爱。 ADT Mag 报道称,Druid 受到 BigQuery、Dremel 和 PowerDrill 技术的影响,目前由 Druid Community 组织。
在 Druid.io 网站上,该数据库声称提供“大规模交互式分析”并且“专为分析而设计”。该数据库具有亚秒级查询和实时摄取等功能, 拥有 可扩展至以下规模的生产集群:
- 3+万亿事件/月
- 通过 Druid 的实时摄取,1M+ 事件/秒
- 100+ PB 的原始数据
- 30+万亿事件
- 每秒对数千名用户使用的应用程序进行数百次查询
- 数万个核心
雅虎并没有取代 Hadoop,而是合并了 Druid 来填补空白。 Hadoop 由 Doug Cutting 和 Mike Cafarella 于 2005 年创建。 Cutting 也是 Lucene 的创始人,他以他儿子的玩具大象的名字命名了 Hadoop。 Hadoop 的出现是对谷歌和雅虎搜索引擎的开源回答,Cutting 和 Cafarella 旨在为他们的项目 Nutch 设计这些引擎,他们需要在该项目中索引大量网页。由于 Google 文件系统和 Google MapReduce 研究论文的发布,Cutting 和 Cafarella 能够自动运行他们的项目。
当 Cutting 被雅虎聘用时,当时雅虎的搜索和广告首席架构师雷米·斯塔塔 (Raymie Stata) 与他签约,让他继续从事 Hadoop 方面的工作。雅虎的想法是保持该项目的源代码开放,并将其作为一种“通用”技术来支持,而不是严格地为搜索引擎保留。
目前使用 Hadoop 的公司 名单 包括 Facebook、谷歌、Adobe、LinkedIn、 纽约时报 、Spotify、Twitter 和 eBay。