大数据技术分析：Spark 6. RDD 持久化

时间:1753-01-01 作者: 来源:搜狐

原标题：大数据技术分析：Spark 6. RDD 持久化

Spark中一个很重要的能力就是可以将一个数据集通过操作持久化(或者说缓存)到内存中。实例化每一节点会存储数据集的任何分区的内容，这样其他的 action 就能在内存中重新利用并执行计算。这样就能让之后的 action 操作变得飞快。这也是迭代逻辑和快速的交互所使用的关键工具。

使用 persist() 或者 cache() 函数来标记一个 RDD 是持久化的。当这个 RDD 在首次被一个 action 计算后，他就会一直保持在内存中。Spark 的缓存是具有容错能力的，如果 RDD 中的任何分区丢失了，他会重新调用生成该 RDD 的transformations以修复。

另外，每一个持久化的 RDD 能够使用不同的存储水平来持久化。使用 StorageLevel 对象在 persist 上。而 cache() 函数是持久化在内存(StorageLevel.MEMORY_ONLY)的快速写法。

所有的持久化水平如下：

返回搜狐，查看更多

责任编辑：