博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
RDD认知
阅读量:4979 次
发布时间:2019-06-12

本文共 460 字,大约阅读时间需要 1 分钟。

1.RDD又叫弹性分布式数据集

2.抽象

3.带泛型,支持多种数据类型

4.集合是可以进行分区

例如(1,2,3,4,5,6,7,8,9)这个数组是可以进行分区的(1,2,3)  (4,5,6)  (7,8,9)可以并行计算(这就是分布式计算)

RDD5大特性

1.一个RDD有一系列的分区

2.对RDD执行一个操作,是对所有的分区执行相应的操作

3.一系列RDD,一个RDD依赖另一个RDD

4.对于Key-value时进行partitioner进行分区

4.数据在哪优先把作业调度到结点进行计算,移动数据不如移动计算

SparkContext&&SparkConf

1.SparkContext是主入口点,连接到Spark“集群” local standlone ,yarn,mesos

通过SParkContext来创建RDD或者来广播到集群

2.在创建SparkContext之前还需要创建SparkConf

 

转载于:https://www.cnblogs.com/chenligeng/p/9535517.html

你可能感兴趣的文章
MIS外汇平台荣获“2013年全球最佳STP外汇交易商”
查看>>
LeetCode 题解之Add Digits
查看>>
hdu1502 , Regular Words, dp,高精度加法
查看>>
SpringBoot在idea中的热部署配置
查看>>
MyEclipse连接SQL Server 2008数据库的操作方法
查看>>
JS验证图片格式和大小并预览
查看>>
laravel5.2 移植到新服务器上除了“/”路由 ,其它路由对应的页面显示报404错误(Object not found!)———新装的LAMP没有加载Rewrite模块...
查看>>
编写高质量代码--改善python程序的建议(六)
查看>>
windows xp 中的administrator帐户不在用户登录内怎么解决?
查看>>
接口和抽象类有什么区别
查看>>
Codeforces Round #206 (Div. 2)
查看>>
**p
查看>>
优先队列详解
查看>>
VS2012 创建项目失败,,提示为找到约束。。。。
查看>>
设计类图
查看>>
类对象
查看>>
[Voice communications] 声音的滤波
查看>>
软件建模——第9章 毕业论文管理系统—面向对象方法
查看>>
[SDOI2008]洞穴勘测
查看>>
Difference between Linearizability and Serializability
查看>>