Checkpoint是Spark提供的一种缓存机制,当需要计算的RDD过多时,为了避免重新计算之前的RDD,可以对RDD做Checkpoint处理,检查RDD是否被物化或计算,并将结果持久化到磁盘或HDFS。
1. Checkpoint会把当前RDD保存到一个目录中。
2. Checkpoint的时候,会把所有依赖的父级rdd信息清除掉。
3. Checkpoint不会马上执行,要触发action操作的时候才会执行。
4. 因为 Checkpoint会清除父级RDD的信息,所以在Checkpoint应该先做persist(持久化)操作,否则就要重新计算一遍。
5. 一般来说,Lineage链较长、宽依赖的RDD需要采用检查点机制。
6. Checkpoint的好处显而易见,比如做1000次迭代,在第999次时做了Checkpoint,如果第1000次的时候,只要重新计算第1000即可,不用从头到尾再计算一次。
7. 与spark提供的另一种缓存机制cache相比, cache缓存数据由executor管理,当executor消失了,被cache的数据将被清除,RDD重新计算,而checkpoint将数据保存到磁盘或HDFS,job可以从checkpoint点继续计算。
1. Checkpoint会把当前RDD保存到一个目录中。
2. Checkpoint的时候,会把所有依赖的父级rdd信息清除掉。
3. Checkpoint不会马上执行,要触发action操作的时候才会执行。
4. 因为 Checkpoint会清除父级RDD的信息,所以在Checkpoint应该先做persist(持久化)操作,否则就要重新计算一遍。
5. 一般来说,Lineage链较长、宽依赖的RDD需要采用检查点机制。
6. Checkpoint的好处显而易见,比如做1000次迭代,在第999次时做了Checkpoint,如果第1000次的时候,只要重新计算第1000即可,不用从头到尾再计算一次。
7. 与spark提供的另一种缓存机制cache相比, cache缓存数据由executor管理,当executor消失了,被cache的数据将被清除,RDD重新计算,而checkpoint将数据保存到磁盘或HDFS,job可以从checkpoint点继续计算。
标签: checkpoint、rdd、清除、父级、cache
笔试题
刷题
简历模板
AI算法
大数据
内推
内推: