支持多种消息队列,比如Files/Kafka/Kinesis等。 可以用join(), union()连接多个不同类型的数据源。 返回一个DataFrame,它具有一个无限表的结构。 你可以按需选择SQL(BI分析)、DataFrame(数据科学家分析)、DataSet(数据引擎),它们有几乎一样的语义和性能。 把Kafka的JSON结构的记录转换成String,生成嵌套列,利用了很多优化过的处理函数来完成这个动作,例如from_json(),也允许各种自定义函数协助处理,例如Lambdas, flatMap。 在Sink步骤中可以写入外部存储系统,例如Parquet。在Kafka sink中,支持foreach来对输出数据做任何处理,支持事务和exactly-once方式。 支持固定时间间隔的微批次处理,具备微批次处理的高性能性,支持低延迟的连续处理(Spark 2.3),支持检查点机制(check point)。 秒级处理来自Kafka的结构化源数据,可以充分为查询做好准备。
参考:https://www.iteblog.com/archives/2427.html
标签: kafka、sink、批次、dataframe、json
笔试题
刷题
简历模板
AI算法
大数据
内推
内推: