流式分析实时处理运动中的数据。这一概念和技术几年前出现在金融交易领域,但由于数字化和物联网 (IoT) 的发展,如今它变得越来越重要。以下幻灯片来自最近一次会议的演讲:
- 来自不同行业(制造、零售、体育)的真实成功案例
- 流处理的替代框架和产品
- 与数据仓库、Apache Hadoop、统计学、机器学习、开源 R、SAS、Matlab 等的互补关系。
流处理框架和产品
下图显示了框架(无论是开源如 Apache Storm 、 Apache Flink 、 Apache Spark 还是闭源如 Amazon Kinesis )和产品(如 TIBCO StreamBase / Live Datamart 、 IBM InfoSphere Streams 、 Software AG 的 )之间的主要区别 阿帕玛 )。
当然,您可以通过编写代码并使用一个或多个框架来实现一切。然而,除了其他几个好处之外, 使用产品的关键区别在于上市时间 。您可以在数周而不是数月甚至数年内实现项目。如今,在唯一不变的就是变化的世界里,快速交付是大多数企业的首要任务!
我建议你选择一两个框架和一两个产品来实现一个概念验证(POC);花五天时间与每个人一起实施流分析用例,其中包括输入源或传感器的集成、关联/滑动窗口/模式、模拟和测试,以及用于监控和主动采取行动的实时用户界面。最后,您可以比较结果并决定哪个最适合您。
Hadoop、R 和 Apache Spark 时代的快速数据和流分析
以下幻灯片更详细地讨论了上述主题:
流分析——来自 Kai Wähner 的开源框架和产品的比较
这个(广泛的)幻灯片的部分内容被用于几个国际会议的演讲,例如在旧金山举行的 JavaOne 2015。我感谢有关内容的任何反馈,以不断改进它……
如果您想了解更多关于流分析及其与大数据和 Apache Hadoop 的关系,我推荐以下 InfoQ 文章: Real-Time Stream Processing as Game Changer in a Big Data World with Hadoop and Data Warehouse 。