Spark Structured Streaming有什么特点-k6k4.com

Spark Structured Streaming有什么特点

支持多种消息队列，比如Files/Kafka/Kinesis等。

可以用join(), union()连接多个不同类型的数据源。

返回一个DataFrame，它具有一个无限表的结构。

你可以按需选择SQL（BI分析）、DataFrame（数据科学家分析）、DataSet（数据引擎），它们有几乎一样的语义和性能。

把Kafka的JSON结构的记录转换成String，生成嵌套列，利用了很多优化过的处理函数来完成这个动作，例如from_json()，也允许各种自定义函数协助处理，例如Lambdas, flatMap。

在Sink步骤中可以写入外部存储系统，例如Parquet。在Kafka sink中，支持foreach来对输出数据做任何处理，支持事务和exactly-once方式。

支持固定时间间隔的微批次处理，具备微批次处理的高性能性，支持低延迟的连续处理（Spark 2.3），支持检查点机制（check point）。

秒级处理来自Kafka的结构化源数据，可以充分为查询做好准备。

参考：https://www.iteblog.com/archives/2427.html

更多精选文章

上一题：Spark RDD有哪几种持久化级别？如

下一题：Spark Checkpoint 有什么

标签： kafka、sink、批次、dataframe、json

一个创业中的苦逼程序员

笔试题

刷题

简历模板

AI算法

大数据

内推

内推：

数据研发工程师 / 个推