spark-submit指令详解

更新时间:2023-07-22 20:31:26 阅读: 评论:0

新思维教育spark-submit指令详解
编写好的Spark程序⼀般通过Spark-submit指令的⽅式提交给Spark集群进⾏具体的任务计算,Spark-submit指令可以指定⼀些向集群申请资源的参数(也可直接在Spark程序代码中指定,参数⽣效的优先级最⾼),在Linux环境下,可通过spark-submit –help 了解spark-submit指令的各种参数说明,截图如下:
韩语
案例(Python任务提交):2016年12月六级
spark-submit –master spark://192.168.1.10:7077 –name router_app –total-executor-cores 8 –executor-memory 4g router_inout.py8890
常⽤的重要参数详解:
jadis
1) –master MASTER_URL: 指定要连接的集群模式(集群资源管理器)黄英文
standalone模式: spark://host:port, 如:spark://192.168.1.10:7077
Spark On Mesos模式 : mesos://host:port
Spark On YARN模式: yarn://host:port
本地模式:local
2) – deploy-mode DEPLOY_MODE : 指定任务的提交⽅式(client 和cluster)
client: 本地客户端模式(默认⽅式),⼀般会在集群主节点安装客户端
cluster: 集群⼯作节点模式
任务最终都会提交给主节点处理,所以在指定任务提交⽅式时,考虑本地客户端和集群⼯作节点对主节点的⽹络开销问题即可。
3)–name appName :设置任务的名称,⽅便在webUI查看
thorn什么意思4)–py-files PY_FILES :加载Python外部依赖⽂件
5)–driver-memory MEM:设置driver的运⾏内存(占⽤客户端内存,⽤于通信及调度开销,默认为1G)
rhea
6)–executor-memory MEM:设置每⼀个executor的运⾏内存(占⽤⼯作节点内存,主要⽤于执⾏任务的内存开销),executor代表work节点上的⼀个进程。
7)–total-executor-cores NUM:设置任务占⽤的总CPU核数(即任务的并发量),由主节点指定各个⼯作节点CPU的使⽤数。
注意:该参数选项只在Spark standalone and Mesos 模式下有效
8)–executor-cores NUM:设置执⾏任务的每⼀个executor的CPU核数(yarn模式有效,默认为1)或者⼯作节点的总CPU核数(standalone模式有效)
9)–num-executors NUM:设置任务的executor进程数(yarn模式下有效)
10)–conf PROP=VALUE:设置Spark的属性参数
–conf spark.default.parallelism=1000 设置RDD分区⼤⼩,系统默认为200
postmaster
–conf Fraction=0.5 设置内存分配⼤⼩(存储),系统默认为0.6株洲环球雅思
–conf Fraction=0.3 设置shuffle上限内存空间,系统默认为0.2

本文发布于:2023-07-22 20:31:26,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/1111456.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:集群   任务   参数   节点   设置   指定
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图