数据科学知识体系

更新时间:2022-10-28 06:38:58 阅读: 评论:0

正文

数据科学的知识体系如图1所示。

数据科学知识体系图1数据科学的知识体系

• 基础理论(参见本书第1章):数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础(参见本书第3~5章)、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。在此需要特别提醒的是——“基础理论”与“理论基础”是两个不同的概念。数据科学的“基础理论”在数据科学的研究边界之内,而其“理论基础”在数据科学的研究边界之外,是数据科学的理论依据和来源,如图2所示。

数据科学知识体系图2 数据科学的基础理论与理论基础的关系

• 数据预处理(参见本书第2章):为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性,数据科学中需要对原始数据进行预处理——进行数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等。

• 数据计算(参见本书第6章):在数据科学中,计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。有一定的代表性的是Google云计算3大技术、Hadoop MapReduce和YARN技术的出现。数据计算模式的变化意味着数据科学中所关注的数据计算的主要目标、瓶颈和矛盾发生了根本性变化。

• 数据管理(参见本书第7章):在完成“数据预处理”(或“数据计算”)之后,我们需要对数据进行管理,以便进行(再次进行)“数据处理”以及数据的再利用和长久保管。在数据科学中,数据管理方法与技术发生了根本性的改变——不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,例如NoSQL、NewSQL技术和关系云等。

• 技术与工具(参见本书第1-7章的例题):数据科学中采用的技术与工具具有一定的专业性,我们将在本书“1.4.3 常用工具”中给出了较为详细的列表。目前,R语言是数据科学家最为普遍应用的工具之一。因此,本书所有计算例题均采用了R编程技术,帮助读者积累数据科学的实战经验。

本文发布于:2022-10-28 06:38:58,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/78/395996.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图