Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据,也可以通过由 高阶函数map、reduce、join、window等组成的复杂算法计算出数据。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你可以将处理后的数据应用到Spark的机器学习算法、 图处理算法中去。
第三章:Spark Streaming
作品《Spark 编程指南 - 第三章:Spark Streaming》由 编程爱好者 发布于 匠果,转载请注明出处及链接地址:
http://www.jiangguo.net/c/8g/YP.html