(完整版)大数据时代的数据概念分析及其他

更新时间:2023-04-26 21:37:58 阅读: 评论:0


2023年4月26日发(作者:磁粉探伤检测报告)

大数据时代的数据概念分析及其他

一、概念:

"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无

法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体

(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,

很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据

类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前

所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速

度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最

后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应

用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息

之力以确保其真实性及安全性。

百度概念:

大数据(bigdata)或称巨量资料,指的是所涉及的资料量规模巨大到无法透过

目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业

经营决策更积极目的的资讯。大数据的4V特点:VolumeVelocityVarietyVeracity

研究机构Gartner概念:

"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能

力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无

法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大

小、迫使用户采用非传统处理方法的数据集。 亚马逊网络服务(AWS、大数据

科学家JohnRaur提到一个简单的定义:大数据就是任何超过了一台计算机处理

能力的庞大数据量。 研发小组对大数据的定义:"大数据是最大的宣传技术、是最

时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能

不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它

是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技300字读后感 术达到极限

时,也就是数据的极限" 大数据不是关于如何定义,最重要的是如何使用。最大

的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的

数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据

服务的价值在哪里。

二、大数据分析

从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对

大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。

那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多

样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据

领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如

此的认识,大数据分析普遍存在的方法理论有哪些呢?

大数据分析的五个基本方面:

1 可视化分析Analytic Visualizations

大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者

对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的

呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简

单明了。

2 数据挖掘算法Data Mining Algorithms

大数据分析的理论核心就是数据挖掘算法各种数据挖掘的算法基于不同的

数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这

被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数

据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法

才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大

数据的价值也就无从说起了。

3 预测性分析能力 Predictive Analytic Capabilities

大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,

通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的

数据。

4 语义引擎 Semantic Engines

大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、

或其和平鸽子简笔画 他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹

配。

5 数据质量与数据管理 Data Quality and Master Data Management

大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,

无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价

值。 大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,

还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

三、大数据技术

数据采集:ETL L(extract, transform and load)工具负责将分布的、异构数据

源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、

集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

数据存取:关系数据库、NOSQLSQL等。

基础架构:云存储、分布式文件存储等。

数据处理:自然语言处理(NLPNaturalLanguageProcessing)是研究人与计

算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然

(NLUNaturalLanguage

Understanding),也称为计算语言学(Computational Linguistics。一方面它是语

言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心

课题之一。

统计分析:假设检验、显我国最大的平原 著性检验、差异分析、相关分析、T检验、方差分

析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分

析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因

子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、

对应分析、多元对应分析(最优尺度分析)bootstrap技术等等。

数据挖掘:分类 Classification估计Estimation预测Prediction

相关性分组或关联规则Affinity grouping or association rules聚类Clustering

描述和可视化、Description and Visualization、复杂数据类型挖掘(Text, Web ,

图形图像,视频,音频等)

模型预测:预测模型、机器学习、建模仿真。

结果呈现:云计算、标签云、关系图等。

四、大数据特点

要理解大数据这一概念,首先要从""入手,""是指数据规模,大数据一般

指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,

其基本特征可以用4V来总结(Vol-umeVarietyValueVeloc-ity),即体量

大、多样性、价值密度低、速度快。

第一,数据体量巨大。从TB级别,跃升到PB级别。

第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,

等等。

第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据

仅仅有一两秒。

第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着

本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC

及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。

解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规

模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数

据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。

因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信

息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。

五、当下我国大数据研发建设应在以下四个方面着力

一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的

系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,

实现统合,搞好顶层设计。

二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖

各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互

连、信息互通、资源共享奠定基础。

三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在

各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据

交换和数据共享。

四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,

因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。

六、大数据作用

大数据时代到来,认同这一判断的人越来越多。那么大数据意味着什么,他

到底会改变什么?仅仅从技术角度回答,已不足以解惑。大数据只是宾语,离开

了人这个主语,它再大也没有意义。我们需要把大数据放在人的背景中加以透视,

理解它作为时代变革力量的所以然。

1 革价值的力量

未来十年,决定中国是不是有大智慧的核心意义标准(那个"思想者",就

是国民幸福。一体现在民生上,通过大数据让有意义的事变得澄明,看我们在

人与人关系上,做得是否比以前更有意义;二体现在生态上,通过大数据让有

意义的事变得澄明,看我们在天与人关系上,做得是否比以前更有意义。总之,

让我们从前10年的意义混沌时代,进入未来10年意义澄明时代。

2 革经济的力量

生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费

者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,

才实现得了价值。大数据帮助我们从消费者这个源头识别意义,从而帮助生产

者实现价值。这就是启动内需的原理。

3 革组织的力量

随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就

越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反

映这种结构特点的,是各种各样去中心化的WEB2.0应用,如RSS、维基、

博客等。 大数据之所以成为时代变革力量,在于它通过追随意义而获得智慧。

七、大数据处理

周涛:大数据处理数据时代理念的三大转变:要全体不要抽样,要效率

不要绝对精确,要相关不要因果。

大数据处理的流程 具体的大数据处理方法确实有很多,但是根据笔者长时间

的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家

理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入

和预处理、统计和分析,最后是数据挖掘

1、大数据处理之一:采集

大数据的采集是指利用多个数据库来接收发自客户端WebApp或者传感

器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

比如,电商会使用传统的关系型数据库MySQLOracle等来存储每一笔事务

数据,除此之外,RedisMongoDB这样的NoSQL数据库也常用于数据的采

集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会

有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的

访问量诸葛大名垂宇宙 在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且

如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2大数据处理之二:导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分

析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者

分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有

一些用户会在导入时使用来自TwitterStorm来对数据进行流式计算,来满足

部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经

常会达到百兆,甚至千兆级别。

3 大数据处理之三:统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海

量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,

一些实时性需求会用到EMCGreenPlumOracleExadata以及基于

MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求

可以使用Hadoop

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,

特别是I/个人入党申请书 O会有极大的占用。

4大数据处理之四:挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,

主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效

果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans

用于统计学习的SVM和用于分类的N表示性格的词语 aiveBayes主要使用的工具有Hadoop

Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及

的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是

一个比较完整的大数据处理。

八、CDA大数据应用培训与案例分析

大数据应用的关键,也是其必要条件,就在于"IT""经营"的融合,当然,这

里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。

以下是我整理的关于各行各业,不同的组织机构在大数据方面的应用的案例,在

此申明,以下案例均来源于网络,本文仅作引用,并在此基础上作简单的梳理和

分类。

1大数据应用案例之:Hadoop大数据分析

1)人大经济论坛日志分析,介绍日志分析的相关知识,以及人大经济论坛

现在的日志管理现状,设计并实现适合人大经济论坛的基于hadoop架构的大数

据日志分析系统,手动编写日志分析MapReduce程序,并在集群环境下运行自

已的jar文件,实现从零起步到hadoop架构,直到实际的大数据分析真实案例的

飞跃。

2)基于旅游点评网站的文本挖掘,介绍文本挖掘的相关知识,使用网页爬虫

抓取旅游点评网站的实际数据,实现数据的清洗和预处理,制定定时更新机制,

并尝试使用手动编程实现MapReduce程序,在hdfs上运行和处理采集的数据,

真正参与基于实际项目的大数据分析过程。

3基于Mahout的人大经济论坛主题推荐,介绍推荐系统和汉字主题推荐涉及

的文本挖掘等相关知识,以及人大经济论坛主题推荐的项目背景,项目的需求分

析以及基于hadoop+Mahout算法模型和系统架构设计解析,并同时使用手动编

MapReduce代码和利用Mahout提供的主题推荐算法两种方法解决人大经济

论坛的主题推荐。

2大数据应用案例之:医疗行业

[1] Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个

客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更

好地分析病人的信息。

[2] 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数

据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对

性地采取措施,避免早产婴儿夭折。

[3] 它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的

健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精

确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经

代谢完成会自动提醒你再次服药。

3大数据应用案例之:能源行业

[1] 智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,

为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多

余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收

集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时

间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业

购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货

就比较贵。通过这个预测后,可以降低采购成本。

[2] 维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然

后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大

数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。

4大数据应用案例之:通信行业

[1] XO Communications通过使用IBM SPSS预测分析软件,减少了将近一

半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺

陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza

络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,

帮助通信企业制定更科学、合理决策。

[2] 电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,

卖给需要的企业,这是全新的资料经济。

[3] 中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预

警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负

责人,使他在最短时间内获知市场行情。

[4] NTT docomo把手机位置信息和互联网上的信息结合起来,为顾客提供附

近的餐饮店信息,接近末班车时间时,提供末班车信息服务。

5大数据应用案例之:零售业

[1] "我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、

网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何

定位公司的差异化,他们通过从 Twitter Facebook 上收集社交信息,更深入

的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费

者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数

据与交互数据的完美结合,为业务挑战提供了解决方案。"Informatica的技术帮

助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目

标性。

[2] 零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数

据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时

调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同

时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。


本文发布于:2023-04-26 21:37:58,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/849762.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图