注:按照自己saprk 安装包版本安装
$tar zxf spark-1.6.1-bin-2.5.0-cdh5.3.6.tgz
-c /opt/modules/
重命名mv spark-env.sh.template spark-env.sh
java_home=/opt/modlues/jdk1.7.0_67
scala_home=/opt/modlues/scala-2.10.4
hadoop_conf_dir=
/opt/modlues/hadoop-2.5.0/etc/hadoop
$sbin/hadoop-daemon.sh start namenode
$sbin/hadoop-daemon.sh start datanode
$sbin/start-master.sh
$start-slaves.sh
命令强制离开
$bin/hadoop dfsadmin -safemode leave
//hdfs path
val rdd = sc.textfile(“/input/wc.txt”)
//这是在内存中处理 flatmap函数 这是匿名函数
按行读取分割split
val wcrdd=rdd.flatmap(line=>line.split(“\t”)).map(word
=>(word,1)).reducebykey((a,b)=>(a+b))
//保存到hdfs
wcrdd.saveastextfile(“wc-spark”)
val wcrdd=sc.textfile(“/input/wc.txt”).flatmap(line
=>line.split(“\t”)).map(word=>(word,1)).reducebykey((a,b)
=>(a+b)).saveastextfile(“wc-spark”)
val rdd = sc.textfile(“/input/wc.txt”)
//分割这个行
val linerdd=rdd.flatmap(line=>line.split(“\t”))
//元组对出现一个 就是一个元组对
val kvrdd=linerdd.map(word=>(word,1))
val wcrdd=kvrdd.reducebykey((a,b)=>(a+b))
wcrdd.saveastextfile(“wc-spark”)
val rdd = sc.textfile(“/input/wc.txt”)
val wcrdd=rdd.flatmap(_.split(“\t”)).map
((_,1)).reducebykey((_+_))
wcrdd.saveastextfile(“wc-spark”)
spark sc:sparkcontext(上下文)
spark context available as sc.
val rdd = sc.textfile(“/input/wc.txt”).filter
(line=>line.contains(“hadoop”))
val wcrdd=rdd.flatmap(_.split(“\t”)).map
((_,1)).reducebykey((_+_))
wcrdd.foreach(word=>println(word))
//查看函数
wcrdd.first
wcrdd.take(3)
wcrdd.top(3)
wcrdd.collect 查看结果
wcrdd.count
//缓存
wcrdd.cache
wcrdd.count//使缓存生效
分析:(spark,2)=》(2,spark)》sortbykey(fal)=》
(2,spark)=》(spark,2)
代码:
val rdd = sc.textfile(“/input/wc.txt”)
val wcrdd=rdd.flatmap(_.split(“\t”)).map
((_,1)).reducebykey((_+_))
val sortrdd=wcrdd.map(word=>(word._2,word._1)).
sortbykey(fal).map(word=>(word._2,word._1))
sortrdd.collect
//top:自带排序
val sortrdd=wcrdd.map(word=>(word._2,word._1)).top(3)
1、sparp-evn
//主节点配置
spark_master_ip=li(主机名)
spark_master_port=7077
spark_master_webui_port=8080
//从节点配置
spark_worker_cores=2
spark_worker_memory=2g
spar励志图片大全带字k_worker_port=7078
spark_worker_webui_port=8081
spark_worker_instances=1
2、slaves
写入hostname名称:自己主机名
3、启动服务
$sbin/start-master.sh
$start-slaves.sh
4、spark-shell常用命令行参数
帮助信息查看:
$bin/spark-shell –help
(1)spark运行在本地模式下:
$bin/spark-shell –master local
或者$bin/spark-shell
//本地
bin/spark-shell \
–class org.apache.spark.examples.sparkpi \
–master local \
–jars lib/spark-examples-1.6.1-hadoop2.5.0-cdh5.3.6.jar \
100
//集群
bin/spark-shell \
–class org.apache.spark.examples.sparkpi \
–master spark://bigdata.beifeng.com:7077 \
–jars lib/spark-examples-1.6.1-hadoop2.5.0-cdh5.3.6.jar \
100
spark-shell和spark-submit
一般执行脚本时使用spark-shell;
一般向集群提交job是使用spark-submit。
崇州旅游景点大全spark-shell的本质是spark-submit
spark-shell和spark-submit通知只能使用一个
//本地
bin/spark-submit \
–class org.apache.spark.examples.sparkpi \
–master local \
lib/spark-examples-1.6.1-hadoop2.5.0-cdh5.3.6.jar \
100
//集群
bin/spark-submit \
–class org.apache.spark.examples.sparkpi \
–master spark://bigdata.beifeng.com:7077 \
lib/spark-examples-1.6.1-hadoop2.5.0-cdh5.3.6.jar \
100
//spark开发时模式的使用
一般本地模式适合本地开发测试。集群模式适合生产环境
1、spark-env.sh
spark_history_opts=”-dspark.history.fs.logdirectory
=hdfs://192.168.1.1:8020/ur/li/spark-events”
注:spark-events目录需要创建
2、spark-default.conf
spark.eventlog.enabled
true
spark.eventlog.dir
hdfs://192.168.1.1:8020/ur/li/spark-events
注:spark.eventlog.dir 目录和缓刑人员每月思想汇报
-dspark.history.fs.logdirectory保持一致
3、启动history服务
谷地$sbin/start-history-rve健康知识宣传活动r.sh
本文发布于:2023-04-05 14:14:56,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/zuowen/4eb7bdad6683de6a80ed12da1b9dfa5f.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:spark 安装教程(spark环境搭建及配置).doc
本文 PDF 下载地址:spark 安装教程(spark环境搭建及配置).pdf
留言与评论(共有 0 条评论) |