Hadoop 最大的挑战是什么?

一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

  • 新项目:《从零手撸:仿小红书(微服务架构)》 正在持续爆肝中,基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...点击查看项目介绍 ;
  • 《从零手撸:前后端分离博客项目(全栈开发)》 2 期已完结,演示链接: http://116.62.199.48/ ;

截止目前, 星球 内专栏累计输出 63w+ 字,讲解图 2808+ 张,还在持续爆肝中.. 后续还会上新更多项目,目标是将 Java 领域典型的项目都整一波,如秒杀系统, 在线商城, IM 即时通讯,权限管理,Spring Cloud Alibaba 微服务等等,已有 2200+ 小伙伴加入学习 ,欢迎点击围观

许多公司在其 IT 基础架构中采用 Hadoop。对于拥有强大工程团队的老牌Big Data stager来说,设计目标系统、选择技术栈并开始实施通常不是什么大问题。经验丰富的人有时仍会遇到各种复杂的障碍,但 Hadoop 初学者在入门时会面临无数挑战。 以下是 Grid Dynamics 为其客户解决的 最常见的 Hadoop 挑战

供应商的多样性。选择哪个?

常见的第一反应是使用来自 Apache 网站的原始 Hadoop 二进制文件,但这导致意识到为什么只有少数公司在生产环境中“按原样”使用它们。不这样做有很多很好的论据。但是随着意识到有多少 Hadoop 发行版可以从 Hortonworks Cloudera MapR 免费获得并以大型商业 IBM InfoSphere BigInsights Oracle Big Data Appliance 结束, 恐慌随之而来 。甲骨文甚至包括硬件!在与供应商打了几次介绍性电话后,事情变得更加复杂。选择正确的发行版并不是一件容易的事,即使对于经验丰富的员工也是如此,因为他们每个人都嵌入了不同的 Hadoop 组件(如 CDH 中的 Cloudera Impala )、配置管理器( Ambari Cloudera Manager 等),以及 Hadoop 的总体愿景使命。

Hadoop 上的 SQL。很受欢迎,但不清楚...

Hadoop 存储大量数据。除了根据预定义的管道进行处理外,企业还希望通过为数据科学家和业务分析师提供交互式访问来获得更多价值。互联网上的营销嗡嗡声甚至迫使他们这样做,暗示但没有明确说明与企业数据仓库的竞争。这里的情况类似于供应商的多样性,因为提供“基于 Hadoop 的交互式 SQL”的框架太多了,但挑战不在于选择最好的框架。要知道,目前它们都还不能完全替代传统的 OLAP 数据库。在具有许多明显的战略优势的同时,在性能、SQL 合规性和支持简单性方面存在有争议的缺点。这是一个不同的世界,您应该遵守它的规则,或者不要将其视为传统方法的替代品。

大数据工程师。有没有?

优秀的工程人员是任何 IT 组织的重要组成部分,但在大数据中它确实至关重要。在大多数情况下,依靠优秀的 Java/Python/C++/等工程师来设计/实施高质量的数据处理流程意味着浪费数百万美元。经过两年的开发,您可能会得到不稳定、无法支持和过度设计的混乱脚本/jar,并伴随着大量的框架。如果主要开发人员离开公司,情况就会变得非常危急。与任何其他编程领域一样,经验丰富的大数据开发人员大部分时间都在思考如何让事情变得简单以及系统在未来将如何评估。但大数据技术栈的经验是一个关键因素。因此,挑战在于找到这样的开发人员。

安全的 Hadoop 环境。有点头疼。

越来越多的公司将敏感数据存储在 Hadoop 中。希望不是信用卡号码,但至少是符合相应要求的安全法规的数据。所以这个挑战纯粹是技术性的,但经常会引起问题。如果只使用 HDFS 和 MapReduce,事情就简单了。 data-in-the-motion 和 at-rest 加密都可用,文件系统权限足够授权,Kerberos 用于身份验证。只需使用显式边缘节点添加边界和主机级别的安全性,然后保持冷静。但是一旦你决定使用其他框架,特别是如果他们在自己的系统用户下执行请求,你就会陷入困境。首先是并非所有这些都支持 Kerberized 环境。第二个是他们可能没有自己的授权功能。第三是经常缺少动态数据加密。最后,如果应该在集群外部提交请求,会带来很多麻烦。

结论

我们指出了一些我们所看到的热门挑战。当然,上面的项目还远未完成,人们可能会被它们吓跑,从而决定根本不使用 Hadoop 或将其采用推迟到以后的某个时间。那是不明智的。 Hadoop 为拥有熟练技能的组织带来了一系列优势。与其他大数据框架和技术合作,它可以将面向数据的业务的能力提升到一个全新的性能水平。

相关文章