首页
/ 正文

在 IBM Bluemix 上开始使用 Apache Spark

更新时间: 2023-02-27 15:51:13

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 82w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 2800+ 小伙伴加入学习，欢迎点击围观

最近，IBM 向 IBM Bluemix 添加了新 Apache Spark 服务的测试版。 Apache Spark 是一种用于大规模数据处理的快速通用引擎。性能基准表明它的速度可以比 Hadoop 快 100 倍。

Bluemix 上的 Spark beta 服务只能用作 Bluemix 上的 Apache Spark Starter 的一部分，后者附带用于存储文件的 SWIFT 对象存储服务和用于交互式和可重现数据分析和可视化的集成 Jupyter Notebook 。笔记本本质上是基于网络的 IDE，供数据科学家编程和记录他们的算法。

Spark Starter 包括三个示例笔记本，展示了如何使用 Python 和 Scala 作为编程语言。所有样本都使用需要上传到对象存储服务的可公开访问的天气数据。下面的屏幕截图来自样本，用于确定美国平均降水量最高的 10 个气象站。前三行数据被加载，然后条目的数量和第一个条目被打印出来。

要了解更多信息，请阅读我的同事 Luis Arellano 的文章 Introducing IBM Analytics for Apache Spark 和 Top 5 Tips to get Started On Apache Spark 。