提起大数据技术,我们常常会想到大数据技术所需要的生态平台hadoop和spark,其中的spark的概念及学习路线是如何的呢?一起来跟www.8875have三单形式51.com看看吧~
1、spark描述
apache spark是专为大规模数据处理而设计的快速通用的计算引擎。
spark是一种与hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使spark在某些工作负载方面表现得更加优越,因为spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
spark是在scala语言中实现的,它将scala用作其应用程序框架。
spark和scala能够紧密集成,其中的scalable可以像操作本地集合对象一样轻松地操作分布式数据集。
2、spark特点
① 高级api将焦点从集群本身剥离出来,spark应用程序开发人员可以将焦点源远流长近义词放在应用程序需要执行的计算本身。
② spark速度快,支持交互式计算和复杂算法。
③ spark是一个通用的引擎,它可以用来完成各种操作,包括sql查询、文本处理、机器学习等,在spark出现之前,我们一般需要学习各种引擎来处理这些需求。
spark的学习路线可以分成编程语言、linux、spark三个阶段来学习。
1、编程语言
学习spark主要学习java和scala这两种编程语言。
① java学习:java基础语法、java面向对象、java api、线程、网络编程、反射基本原理。
② scala学习:scala基础语言、scala类、scala对象、scala特征、scala模式匹配,其中需要重点掌握scala的trait、apply、函数式编程、泛型、逆变与协变等。
2、linux
sp行政工作主要负责什么ark是基于linux系统开发并运行的,因此需要学习linux系统。
linux:linux基础知识、centos、maven。
3、spark
在spark阶段中主要学习spark编程模型、spark内核、sparksql、sparkstreaming。
① spark编程模型:spark模型组成、spark弹性分布式数据集rdd、spark转换transformation、spark操作actions。
② spark内核:spark专业术语定义、spark运行原理、spark运行基本流程、spark运行架构特点、spark核心原理透视、spark运行模式、standalone运行模式、yarn-client运行模式、yarn-clus刺猬的优雅ter运行模式。
③ sparksql:sparksql概念、overview、sparks陈慧琳的歌ql程序开发数据源、sparksql程序开发dataframe、sparksql程序开发datat、sparksql程序开发数据类型。
④ sparkstreaming:spark streming概念、spark streaming执行步骤、sparkstreaming程序开发dstream的输入源、sparkstreaming程序开发dstream的操作、sparkstreaming程序开发程序开发–性能优化、sparkstreaming程序开发容错容灾。
spark作为大数据技术的重要内容之一,是每一个学习大数据的同学所要必学的生态框架,通过这篇文章大家掌握到spark的概念及学习路线了吗?
本文发布于:2023-04-05 09:17:54,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/zuowen/e295b20b674ae0940824fda6592e3ec3.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:spark平台基本组成(spark安装详细教程).doc
本文 PDF 下载地址:spark平台基本组成(spark安装详细教程).pdf
留言与评论(共有 0 条评论) |