首页 > 试题

元数据管理规范

更新时间:2025-01-10 15:57:02 阅读: 评论:0

数据管理规范
首先对数据资源进行全面梳理,规划构建最优化的、具有差别化的、面向应用主题的、贵阳高新区数据资源中心,进而支持实现相应分析目标的数据挖掘、多维数据分析等,主要包含以下五大方面数据资源:
(1)整合以高新区企业为维度的统计口径的数据,主要以一套表系统数据和火炬系统数据为主,建立高新区企业(被纳入统计的)全景视图;
(2)整合部分其它国家级高新区的相关数据以及火炬计划年鉴的数据,建立国家级高新区数据资源库,用于横向比较等分析研究;
(3)整合必要的外部宏观经济数据和区域经济等数据,形成高新区经济分析补充数据资源库,用于相关的分析应用;
(4)整合省市部分相关部门的企业数据源,如:省(市)统计局、省(市)经信委、省(市)发改委、省科技厅、商务厅和市科技局及中关村贵阳科技园等处可以协商采集的相关数据,用于综合分析园区的经济发展态势;
(5)基于精准招商需求,整合相关行业的全量企业数据,并在分析后形成招商对象企业数据库,服务高新区精准招商。
上述数据源将通过相关系统接口开发导入、数据格式转换等方式进行自动、半自动的定期加载,形成动态更新的贵阳高新区“经济气象”数据资源中心。
其次,高质量的数据是数据分析的基础,为此数据的产生、收集、清洗存储、整合需要一套完整数据管理体系来支撑。数据管理体系按照数据类型可以分为元数据管理和数据质量管理。
(1)元数据管理是数据质量管理的基础和先行条件。元数据可以简单理解为数据的标准。确立统一的数据统计口径标准,构建全面、丰富的数据指标体系。形成一系列面向应用的可更新的综合分析专题数据库。通过元数据管理可以很大程度上从源头杜绝问题数据的产生。
(2)数据质量是数据分析的基础,为此需要结合具体数据质量问题,制定严密的数据质量校核方案。为了保证数据的可靠性和可用性,在使用数据前必须要对每个准备应用的数据项做数据质量评估,并通过数据质量监控,进行问题数据追溯和问题数据处理。
数量质量校核是针对目前园区数据管理中存在的数据质量问题,例如完整性、一致性、准确性、规范性等问题,整合数据仓库、数据分析、数据挖掘、可视化展现以及工作流等多项信息技术,将结合客户的业务规则,设计并开发数据质量完整性模型、规范性模型、准确性模型、离群值模型、孤立点探测模型等,实现对业务数据的全面、专业、高效的数据质量校核与监控。具体实施步骤如下:
①数据质量模型设计可视化:可视化操作,降低业务人员技术门槛;
②数据管理校核任务流程化:采用工作流管理模式,可方便进行模型间的组合形成工作流,同时对该工作流的调度管理按照任务管理模型进行,方便易用;
③问题数据追溯智能化:对于问题数据按照业务归属自动推送到相关业务归口单位,实现智能推送,闭环管理业务流程;
④标准六大业务模块:数据质量评价模块、问题追溯模块、模型管理模块、可视化展现模型、数据质量分析模块、任务管理模块。
数据仓库设计及实现
(1)数据仓库规划存储模型搭建
数据仓库的建设是一个战略性工程,它将直接影响到数据驱动的全新管理模式的未来发展。能否成功地建立管理信息系统并发挥其作用,关键在于数据仓库的设计和建设的速度及质量。所以在设计开发数据仓库时应遵循前瞻性、实用性、安全性、可信性和科学易用性等特点。
(2ETL设计与实现
数据仓库的数据来源于业务处理系统,但是数据仓库的数据并不是对源系统数据的简单叠加,它需要按照数据仓库的逻辑模型和物理模型,在源系统数据分析的基础上,按照源系统数据和数据仓库数据之间的映射关系,经过数据的抽取(Extraction)、转换 (Transformation)和加载(Loading)等环节方可进入数据仓库,这个过程简称为ETL处理。
ETL是搭建数据仓库数据平台的基础,也是保证数据仓库的数据质量的具体实现。基于数据仓库项目开发的经验,在大多数据仓库的实施过程当中,ETL都是一个非常复杂、耗时的过程,其工作量约占整个数据仓库项目的40-50%,占数据仓库设计阶段工作量的70-80
%,有许多原因影响这一阶段的时间和进度,比如对原有业务系统和旧的操作环境的了解有限,原系统文档不全等,使得ETL任务在了解旧的业务应用以及如何抽取数据上花费了较多的时间。ETL实施困难的另一个原因是原有的系统平台没有足够的容量/系统资源来支持数据抽取处理,系统资源不足可能表现为:CPU、磁盘空间、I/O带宽或没有一个有效的窗口去运行抽取、转换程序。
ETL过程不仅工作量大,而且还受到很多时间窗口的限制,它不仅需要在不同的特定(非确定)的时间抽取数据,而且还必须要在特定的时间范围内把数据加载到数据仓库。由于ETL过程是数据仓库应用系统每天都要进行的工作, 所以ETL设计的科学性和效率性是非常重要的,ETL设计的好坏关系到数据仓库项目的成败。

本文发布于:2023-06-05 09:41:47,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/88/22420.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:元数据管理规范.doc

本文 PDF 下载地址:元数据管理规范.pdf

标签:数据   数据仓库   质量
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|