1.RDD又叫弹性分布式数据集
2.抽象
3.带泛型,支持多种数据类型
4.集合是可以进行分区
例如(1,2,3,4,5,6,7,8,9)这个数组是可以进行分区的(1,2,3) (4,5,6) (7,8,9)可以并行计算(这就是分布式计算)
RDD5大特性
1.一个RDD有一系列的分区
2.对RDD执行一个操作,是对所有的分区执行相应的操作
3.一系列RDD,一个RDD依赖另一个RDD
4.对于Key-value时进行partitioner进行分区
4.数据在哪优先把作业调度到结点进行计算,移动数据不如移动计算
SparkContext&&SparkConf
1.SparkContext是主入口点,连接到Spark“集群” local standlone ,yarn,mesos
通过SParkContext来创建RDD或者来广播到集群
2.在创建SparkContext之前还需要创建SparkConf