首页 > 作文

大数据最新技术动态(大数据专业就业前景)

更新时间:2023-04-05 09:11:28 阅读: 评论:0

大数据发展到今天,已经是越来越成熟,无论是大型互联网公司,还是小型的创业公司,都能看见大数据的身影。那么,学习大数据必须掌握哪些核心技术?下面一起来看吧!

01 数据采集与预处理

数据采集就是将这些包括移动互联网数据、社交网络的数据等各种来源的数据,写入数据仓库中,把零散的数据整合在一起,对这些数据进行综合分析。

flume ng作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,hdfs,hba等)。

ndc,netea data canal,直译为网易数据运河系统,是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。

logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。

sqoop,用来将关系型数据库和hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如mysql、oracle)中的数据导入到hadoop(例如hdfs、hive、hba)中,也可以将hadoop(例如hdfs、hive、hba)中的数据导入到关系型数据库(例如mysql、oracle)中。

strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或者在运行时动态选举,nimbus与supervisor都是storm提供的后台守护进程,之间的通信是结合zookeeper的状态变更通知和监控通知来处理。

zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。

02 数据存储

hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,hdfs作为其核心的存储引擎,已被广泛用于数据存储。

hba,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、nosql数据库。

phoenix,相当于一个java中间件,帮助开发工程师能够像使用jdbc访问关系型数据库一样访问nosql数据库hba。

yarn是一种hadoop资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

mesos是一款开源的集群管理软件,支持hadoop、elasticarch、spark、storm 和kafka等应用架构。

redis是一种速度非常快的非关系数据库,可以存储键与5种不同类型的值之间的映射,可以将存储在内存的键值对数据持久化到硬盘中,使用复制特性来扩展性能,还可以使用客户端分片来扩展写性能。

atlas是一个位于应用程序与mysql之间的中间件。

kudu是围绕hadoop生态圈建立的存储引擎,kudu拥有和hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。

03 数据清洗

mapreduce作为hadoop的查询引擎,用于大规模数据集的并行计算,”map(映射)”和”reduce(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。

随着业务数据量的增多,需要进行训练和清洗的数据会变得越来越复杂,这个时候就需要任务调度系统,比如oozie或者azkaban,对关键任务进行调度和监控。

04 数据查询分析

hive的核心工作就是把sql语句翻译成mr程序,可以将结构化的数据映射为一张数据库表,并提供 hql(hive sql)查询功能。

hive是为大数据批量处理而生的,hive的出现解决了传统的关系型数据库(mysql、oracle)在大数据处理上的瓶颈。

impala是对hiv分泌物有血丝e的一个补充,可以实现高效的sql查询。使用impala来实现sql on hadoop,用天津高考网官网来进行大数据实时查询分析。

spark拥有hadoop mapreduce所具有的特点,它将job中间输出结抢票浏览器哪个好果保存在内存中,从而不需要读取hdfs。spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

nutch 是一个开源j如何安慰人ava 实现的搜索洪承畴二事引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和web爬虫。

solr用java编写、运行在rvlet容器(如apache tomcat或jetty)的一个独立的企业级搜索应用的全文搜索服务器。

elasticarch是一个开源的全文搜索引擎,基于lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。

05 数据可视化

对接一些bi平台,将分析得到的数据进行可视化,用于指导决策服务。主流的bi平台比如,国外的敏捷bi tableau、qlikview、powrerbi等,国内的smallbi和新兴的网易有数等。

大数据技术的体系庞大且复杂,每年都会涌现出大量新的技术,目前大数据行业所涉及到的核心技术主要就是:数据采集、数据存储、数据清洗、数据查询分析和数据可视化。

本文发布于:2023-04-05 09:11:26,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/zuowen/d8ccfff49056bc2a8ebb6edf77132501.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:大数据最新技术动态(大数据专业就业前景).doc

本文 PDF 下载地址:大数据最新技术动态(大数据专业就业前景).pdf

下一篇:返回列表
标签:数据   是一个   数据库   分布式
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图