Spark常用算子详解(转换算子、行动算子、控制算子)

更新时间:2023-07-10 01:56:54 阅读: 评论:0

Spark常⽤算⼦详解(转换算⼦、⾏动算⼦、控制算⼦)
Spark简介
Spark是专为⼤规模数据处理⽽设计的快速通⽤的计算引擎;
Spark拥有Hadoop MapReduce所具有的优点,但是运⾏速度却⽐MapReduce有很⼤的提升,特别是在数据挖掘、机器学习等需要迭代的领域可提升100x倍的速度:
感谢团队1. Spark是基于内存进⾏数据处理的,MapReduce是基于磁盘进⾏数据处理的;
2. Spark中具有DAG有向⽆环图,DAG有向⽆环图在此过程中减少了shuffle以及落地磁盘的次数;
Spark流程
1. Spark Application的运⾏环境:创建SparkConf对象
可以设置Application name;
在哪里英语怎么说
可以设置运⾏模式及资源需求;
2. 创建SparkContext对象;
网名好听
SparkContext向资源管理器申请运⾏Executor资源,并启动StandaloneExecutorbackend;老子思想主张
Executor向SparkContext申请Task;
SparkContext将程序分发给Executor;
SparkContext构建成DAG图,将DAG图分解成Stage、将Taskt发送给Task Scheduler,最后由Task Scheduler将Task发送给Executor运⾏;
Task在Excutor上运⾏,运⾏完释放所有的资源;黄山路线图
3. 基于Spark的上下⽂创建⼀个RDD,对RDD进⾏处理;
4. 应⽤程序中y有Action累算⼦来触发Transformation类算⼦执⾏;
5. 关闭Spark上下⽂对象SparkContext;
value 类型
细类型算⼦
陈宝莲遗书输⼊分区与输出分区⼀对⼀型map flatMap mapPartitions glom
输⼊分区与输出分区多对⼀型union cartesain
输⼊分区与输出分区多对多型groupBy
输出分区为输⼊分区⼦集型filter distinct substract sample takeSample
微信名片怎么设置>位置关系Cache型cache persist
key-value类型
细类型算⼦
输⼊分区与输出分区⼀对⼀mapValues

本文发布于:2023-07-10 01:56:54,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1075107.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:资源   分区   设置   数据处理   对象   触发
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图