Spark Structured Streaming有什么特点

支持多种消息队列,比如Files/Kafka/Kinesis等。

可以用join(), union()连接多个不同类型的数据源。

返回一个DataFrame,它具有一个无限表的结构。

你可以按需选择SQL(BI分析)、DataFrame(数据科学家分析)、DataSet(数据引擎),它们有几乎一样的语义和性能。

把Kafka的JSON结构的记录转换成String,生成嵌套列,利用了很多优化过的处理函数来完成这个动作,例如from_json(),也允许各种自定义函数协助处理,例如Lambdas, flatMap。

在Sink步骤中可以写入外部存储系统,例如Parquet。在Kafka sink中,支持foreach来对输出数据做任何处理,支持事务和exactly-once方式。

支持固定时间间隔的微批次处理,具备微批次处理的高性能性,支持低延迟的连续处理(Spark 2.3),支持检查点机制(check point)。

秒级处理来自Kafka的结构化源数据,可以充分为查询做好准备。

参考:https://www.iteblog.com/archives/2427.html

更多精选文章
标签: kafka、sink、批次、dataframe、json
一个创业中的苦逼程序员
笔试题


刷题


简历模板


AI算法


大数据


内推


推荐阅读:
阿里巴巴笔试面试大全
腾讯笔试面试大全
百度笔试面试大全
今日头条笔试面试大全
网易笔试面试大全
Google笔试面试大全
更多笔试面试大全
隐藏