前言
引用Spark commiter(gatorsmile)的话:“从Spark-2.X版本后,Spark streaming就进入维护模式,Spark streaming是低阶API,给码农用的,各种坑;Structured streaming是给人设计的API,简单易用。由于太忙,所以一直没有在官方文档上 更新说明信息”
这个坑,我想大部分朋友和我一样–>也已经被坑了很久。既然被坑了,那就看看怎么个坑法,然后探讨一下下他们之间的区别,希望对正在被坑的人有一定的帮助。
区别
1、Structured streaming详细介绍
Databricks的博文:https://databricks.com/blog/2016/07/28/structured-streaming-in-apache-spark.html
说明文档:https://docs.databricks.com/spark/latest/structured-streaming/index.html
2、Spark streaming详细介绍
Databricks的博文:https://databricks.com/blog/2014/09/16/spark-1-1-the-state-of-spark-streaming.html
3、区别
参考:
结合Kafka使用举例
1、Spark streaming +Kafka(Spark-2.X以后就没有用例了,推测已经进入维护状态,不再维护)
Spark-1.6.0版本:http://spark.apache.org/docs/1.6.0/streaming-kafka-integration.html
2、Structured streaming+Kafka
Spark-2.1.0版本:http://spark.apache.org/docs/2.1.0/structured-streaming-kafka-integration.html