2021年04月25日

第三章：Spark Streaming

Spark streaming是Spark核心API的一个扩展，它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据，也可以通过由高阶函数map、reduce、join、window等组成的复杂算法计算出数据。最后，处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上，你可以将处理后的数据应用到Spark的机器学习算法、图处理算法中去。

3.1. 一个快速的例子

3.3. 初始化StreamingContext

3.4. 离散流（DStreams）

3.5. 输入DStreams和receivers

3.6. DStream中的转换

3.7. DStreams上的输出操作

3.8. 缓存或持久化

3.9. Checkpointing

3.10. 部署应用程序

3.11. 监控应用程序

3.12. 性能调优

3.13. 容错语义

作品《Spark 编程指南 - 第三章：Spark Streaming》由编程爱好者发布于匠果，转载请注明出处及链接地址： http://www.jiangguo.net/c/8g/YP.html