最近,IBM 向 IBM Bluemix 添加了新 Apache Spark 服务的测试版。 Apache Spark 是一种用于大规模数据处理的快速通用引擎。 性能基准 表明它的速度可以比 Hadoop 快 100 倍。
Bluemix 上的 Spark beta 服务只能用作 Bluemix 上的 Apache Spark Starter 的 一部分,后者附带用于存储文件的 SWIFT 对象存储 服务和用于交互式和可重现数据分析和可视化的集成 Jupyter Notebook 。笔记本本质上是基于网络的 IDE,供数据科学家编程和记录他们的算法。
Spark Starter 包括三个示例笔记本,展示了如何使用 Python 和 Scala 作为编程语言。所有样本都使用需要上传到对象存储服务的可公开访问的天气数据。下面的屏幕截图来自样本,用于确定美国平均降水量最高的 10 个气象站。前三行数据被加载,然后条目的数量和第一个条目被打印出来。
要了解更多信息,请阅读我的同事 Luis Arellano 的文章 Introducing IBM Analytics for Apache Spark 和 Top 5 Tips to get Started On Apache Spark 。