雅虎采用 Druid,Hadoop 不是“终结一切,成为一切”

一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

  • 新项目:《从零手撸:仿小红书(微服务架构)》 正在持续爆肝中,基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...点击查看项目介绍 ;
  • 《从零手撸:前后端分离博客项目(全栈开发)》 2 期已完结,演示链接: http://116.62.199.48/ ;

截止目前, 星球 内专栏累计输出 63w+ 字,讲解图 2808+ 张,还在持续爆肝中.. 后续还会上新更多项目,目标是将 Java 领域典型的项目都整一波,如秒杀系统, 在线商城, IM 即时通讯,权限管理,Spring Cloud Alibaba 微服务等等,已有 2200+ 小伙伴加入学习 ,欢迎点击围观

在他们的 工程博客 上,雅虎宣布欢迎 Druid 加入其数据分析工具箱。该公司在十年前创建了 Hadoop,然后将其交给 Apache 基金会,它引用了 MapReduce 风格查询的缓慢、可访问性以及对“adhoc slice-n-dice”的渴望:将数百亿个事件扩展到一个天”和“实时摄取数据”作为采用它们的原因。

Druid 被描述为“专为 OLAP 查询设计的面向列的分布式流式分析数据库”,Druid 忠实于雅虎对开源项目的喜爱。 ADT Mag 报道称,Druid 受到 BigQuery、Dremel 和 PowerDrill 技术的影响,目前由 Druid Community 组织。

Druid.io 网站上,该数据库声称提供“大规模交互式分析”并且“专为分析而设计”。该数据库具有亚秒级查询和实时摄取等功能, 拥有 可扩展至以下规模的生产集群:

  • 3+万亿事件/月
  • 通过 Druid 的实时摄取,1M+ 事件/秒
  • 100+ PB 的原始数据
  • 30+万亿事件
  • 每秒对数千名用户使用的应用程序进行数百次查询
  • 数万个核心

雅虎并没有取代 Hadoop,而是合并了 Druid 来填补空白。 Hadoop 由 Doug Cutting 和 Mike Cafarella 于 2005 年创建。 Cutting 也是 Lucene 的创始人,他以他儿子的玩具大象的名字命名了 Hadoop。 Hadoop 的出现是对谷歌和雅虎搜索引擎的开源回答,Cutting 和 Cafarella 旨在为他们的项目 Nutch 设计这些引擎,他们需要在该项目中索引大量网页。由于 Google 文件系统和 Google MapReduce 研究论文的发布,Cutting 和 Cafarella 能够自动运行他们的项目。

当 Cutting 被雅虎聘用时,当时雅虎的搜索和广告首席架构师雷米·斯塔塔 (Raymie Stata) 与他签约,让他继续从事 Hadoop 方面的工作。雅虎的想法是保持该项目的源代码开放,并将其作为一种“通用”技术来支持,而不是严格地为搜索引擎保留。

目前使用 Hadoop 的公司 名单 包括 Facebook、谷歌、Adobe、LinkedIn、 纽约时报 、Spotify、Twitter 和 eBay。

相关文章