spark 有哪几种存储级别StoreLevel-k6k4.com

spark 有哪几种存储级别StoreLevel

MEMORY_ONLY：默认选项，RDD的（分区）数据直接以Java对象的形式存储于JVM的内存中，如果内存空间不足，某些分区的数据将不会被缓存，需要在使用的时候根据世代信息重新计算。
MEMORY_ONLY_SER：RDD的数据（Java对象）序列化之后存储于JVM的内存中（一个分区的数据为内存中的一个字节数组），相比于MEMORY_ONLY能够有效节约内存空间（特别是使用一个快速序列化工具的情况下），但读取数据时需要更多的CPU开销；如果内存空间不足，处理方式与MEMORY_ONLY相同。
MYMORY_AND_DISK：RDD的数据直接以Java对象的形式存储于JVM的内存中，如果内存空间不中，某些分区的数据会被存储至磁盘，使用的时候从磁盘读取。
MEMORY_AND_DISK_SER：相比于MEMORY_ONLY_SER，在内存空间不足的情况下，将序列化之后的数据存储于磁盘。
DISK_ONLY：仅仅使用磁盘存储RDD的数据（未经序列化）。
xxx_2：以MEMORY_ONLY_2为例，MEMORY_ONLY_2相比于MEMORY_ONLY存储数据的方式是相同的，不同的是会将数据备份到集群中两个不同的节点，其余情况类似。

更多精选文章

标签： memory、内存空间、ser、rdd、序列化

笔试题

刷题

简历模板

AI算法

大数据

内推

内推：