【关键词】环境监测数据;分析;重要性
1.环境监测数据的特征及重要性
1.1环境监测数据的特征
环境监测数据规定了每一次监测获得的数据的可使用范围,超出该范围得出的数据就被视为是不合格的。这是因为监测数据是具有局限性的,这种局限性是为了保证监测数据的准确性与可靠性。同时,对于监测获得的数据要求具有完整性,不应该有缺失或是遗漏的现象。对于在规定范围内的监测数据,如果这些数据不仅具有代表性,还具备完整性,那么就达到监测的目的了[1]。
1.2环境监测数据的重要性
环境监测的重要性在于它能为环境的管理、规划、评价等提供科学、有力的依据。出于对我国正处于经济高速发展阶段的考虑,我们对环境监测应给予更高的重视。一般来说,环境监测数据的质量以及分析能力的高低可以反映出一个监测站工作能力,也体现了该监测站在环境保护工作所处地位的高低。
2.对环境监测数据的填制及整理要求
对于监测获取的相关***标和原始数据,要进行适当的整理和归类,以便后面的工作可以更加有利地开展与进行。在填制监测数据时就应该选取标准的记录表格,在填写时要尽量的专业化、规范化,并且要保证书写清晰、准确。对于原始数据的检查,要逐个地进行、确认,将那些不能真实地反映监测情况的数据去掉。这样做的目的是为了将数据整理得更有条理,更有实用性,减免不必要的反复检查,影响工作效率的提高。同时,还有一个问题需要注意,那就是作为监测数据确认的负责人不可以直接参与监测数据的采集工作[2]。
3.对环境监测数据的分析
环境监测是一种以环境作为对象,运用物理、化学和生物等技术手段,对污染物进行定性、定量和系统的综合分析,它是环境评价中的重要环节,贯穿环境影响评价的整个过程。
3.1利用统计规律进行分析
环境监测是以统计学为基础的,因此,这种分析方法经常被监测人员采用。这种分析方法包含了对环境要素的质量进行各种数学模式评价方法对监测数据进行解剖,利用它的内在规律性进行分析和利用,进而得出相关的论断。这种方法在环境规划、环境调查和环境评价的工作中使用较多[3]。
3.2通过对污染源的监测值来分析
监测人员可以通过对污染源的监测数据进行分析。其实,对污染物的监测对象不仅仅限于空气、地下水、土壤等,还有一个人们经常说的工业污染源。工业污染是有多种的,不同行业的工业就会有其不同的污染物产生。比如,对于化工行业来讲,它排出的有机物含量种类就较多多,而金属物质相对就较少一些;金属行业排出的污染物是有机物含量较少而金属物质含量较多等。如果在一个金属行业排除的废弃物中监测得出的结果显示是具有较多有机物的,那么对于这组监测数据应该重新考虑和分析,并从中找出原因。这也说明了一个问题,那就是监测人员在日常的工作当中要对管辖区内的生产企业相关情况进行了解,要根据不同的行业有针对性地选择相应的监测项目来监测这些污染企业,实行对他们的有效监督[4]。
3.3根据事物之间的相关性原理进行分析
这种分析法主要是基于事物本身具有的相互关系的原理来来进行的。一般来说,两个或者两个以上的监测数据之间往往会存在某一种的固定联系,监测人员可以根据这种固定的联系去分析数据之间的相关联系,也可以对单个已经实行控制质量措施的监测数据进行检测,验证是否正确。而对于一些例行的监测数据,则可以得出较为直观的判断。比如,氟含量跟硬度之间的关系。由于F与Ca、Mg形成沉淀物得容积度比较小,所以,在中性和弱碱性的水溶液当中,如果氟含量是在(mg/ L )级的,那么它的氟含量与Ca、Mg的含量就是呈显负相关的现象,也就是说跟硬度值是负相关的。因此,在高氟区内得出的水质监测结果显示的硬度监测值一般会比较低。如果获得的氟含量较高,得出的硬度监测值也很高,那么这类监测数据就需要进行重新分析[5]。
4.结语
随着我国环境保护的不断深入,监测人员要在使用各种分析方法的同时不断地去提尝试新的分析方法,要在原来的基础水平上更进一步地提高自己的综合分析能力,对提供的监测数据要有一种精益求精的精神,争取提供的数据更可靠更合理,业务技能不断地有新的进步。由于获取的环境监测数据与区域的过去和现在都有密切的联系,因此,监测人员要对监测区域的过去和现在的环境状况都要进行深入的了解和分析,在了解的基础上展开全面的探讨,这样才可以保证获取的监测数据更全面,更有说服力,质量更有保证。
参考文献
[1]叶萍.浅论环境监测数据的综合分析方法[J]中国环境管理干部学院学报, 2009, (01) .
[2]郭琦.环境监测在环境影响评价中的意义与建议[J].科技风, 2010, (15)
[3]孙晓雷.我国环境监测质量管理体系研究[J].科技传播, 2010, (15)
关键词:大数据统计分析;经济管理领域;运用
统计应用作为数学的重要领域,在大多数情况下,数据被收集并且通过一定方法在系统中存储,重要策略被记录,并应用于其他领域。随着数据恢复方法和统计分析方法的逐步集成,大数据的统计数据分析方法在财务管理中变得越来越重要。面对当今全球化的压力和经济市场的激烈竞争,使用财务管理的统计整合是提高有效管理效率,优化资源分配和科学行为的有效步骤。通过市场经济的发展和经济水平的不断提高,数据集成和财务管理水平运用了大数据的统计分析。在建立大规模数据的经济增长***策时,技术在宏观经济研究中起着重要作用。大数据统计分析的作用正在增加,其在管理中的用途正在进一步扩大。显然,加强对经济发展大数据统计分析技术的使用对促进经济增长和提高管理效率非常重要。
一、大数据统计分析方法在经济管理领域运用的意义
为响应市场环境和公司治理内容的变化而促进使用公司治理统计数据的需求主要体现在两个方面:
(一)宏观经济方面发展有若干规律。为了寻找有关经济发展的规律,强大的数据分析技术在宏观经济学中的应用非常重要。一方面,大数据分析统计数据用于从宏观经济发展行业收集数据,对相关行业信息进行实证分析,并调查行业发展和行业问题。使用SPS,Stata和其他数据分析软件,中国拥有最重要的发展法;同时,发现工业发展规律,规范工业发展,开辟新的经济发展方式也很重要[1]。
(二)企业经营管理方面1.提升企业竞争力的必然要求当前,业务发展的竞争越来越激烈。竞争压力主要归因于国内市场经济带来的经济化以及国内市场竞争激烈加入的外国公司的影响。公司必须面对激烈的市场竞争。大众市场信息的统计分析将调整生产和管理策略,并为业务发展的战略调整作出有效的决策。2.提升企业管理水平的必然要求一方面,诸如运营管理、财务管理、风险管理和企业资源管理等相关任务变得越来越复杂。需要统计分析方法来对丰富的业务操作信息进行分类和汇总,为业务管理决策提供有效的信息。同时,企业需要不断满足产品和服务生产方向的***治要求。由于需要与相关部门合作,例如运营财务管理、规避财务风险,因此需要建立相关部门的统计数据,以提高决策效率[2]。
二、大数据统计分析方法在经济管理领域的运用
利用大数据的统计数据分析技术研究宏观经济发展***策,对促进行业发展至关重要。另一方面,如何获取有关复杂数据管理的重要信息,在业务流程和管理方面为公司制定有效的决策是重中之重。关键在于掌握财务管理的大数据分析方法,并使用大数据统计分析技术来分类和提供业务流程管理,隐藏的规则以及来自异常数据点的大量信息。为了应对突发情况,管理人员需要制订正确的决策计划。本文主要讨论宏观经济应用管理领域的统计数据分析方法,以及业务管理、财务管理、风险管理和管理的六个方面。如:
(一)宏观经济方面关于宏观经济产业的运作和发展有若干规律。为了找到宏观经济发展方法,统计分析技术对于稳定经济增长和调查潜在的经济危机很重要。当前,不仅学者,业务经理也开始了解计算机技术的使用,并开始通过统计分析来发现工业发展中的若干问题,学习工业发展的原理。为了找出答案,我们选择了相关的影响因素并采取了相应的行动,采取措施提高工业发展效率。
(二)企业运营管理方面通常,在日常工作程序和工作相关领域中存在某些特定的业务管理和操作规则。另一方面,通过将统计信息应用于业务的运营和管理,公司可以通过分析大数据的统计信息来获得规律。这将帮助公司节省一些资源,避免重复的任务并节省公司的业务资源。如果该***策是从科学的统计评估阶段得出的,则情况与正常情况不同的企业高管应仔细考虑潜在的风险。
(三)企业营销管理方面企业需要建立大型数据管理系统来收集有关企业提供的产品或服务的市场交易信息。因此,消费者的热点必须与受管理的信息系统对齐,以使其隐藏在协同交易信息中。确定消费者对需求的偏好并确定消费者需求。公司的主要产品和服务根据消费者的喜好运作,可以满足消费者的需求,替代市场上的非反应性产品和服务。同时,开发新产品和服务企业领导者可以提供有效的决策信息,并为消费者创建新的热点[3]。
(四)企业财务管理方面应用管理统计信息。它通过审查有关生产过程和运营的统计数据(尤其是财务数据),进行定性和定量分析,帮助评估相关活动,例如商业投资。财务管理是开展业务必不可少的部分,这对于减轻公司的财务风险和提高公司资源分配的效率至关重要。通过统计分析对商业经济数据进行分类和分析,可以为高管、投资者和其他相关利益相关者提供有效的决策信息。
(五)企业人力资源管理方面将统计应用于公司的人力资源管理,并使用统计分析技术结合公司业务管理部门的特征,选择适当的方法来提高效率。人力资源管理很重要,人才基本上是企业的无形资产,在部门保留相关的人力资源是业务发展的关键。回归站评估法用于预测企业发展的人力资源需求,动态分析法用于根据状态预测人力资源的变化。将这两个方面结合起来可以大大提高业务资源的效率。
(六)企业风险管理方面使用统计分析技术对业务流程中的大量业务信息进行分类和分析,发现隐藏的规则和数据差异。重要的是,业务主管需要进行预测,做出正确的决定,解决事件并发现潜在危险。意思是如果统计数据分析有些奇怪,则需要找出业务流程中具有的某些规则,因此业务主管需要寻找更多异常条件,尤其是财务管理,要注意关注状态的变化。另一方面,对公司财务信息进行统计分析是公司规避财务风险的有效手段之一。
三、完善大数据统计分析方法在经济
管理领域运用的措施在本文中,我们将了解如何从六个方面分析大数据的统计数据:宏观经济活动、业务管理、风险管理、财务管理、资源管理和财务管理人员。这被认为是财务管理数据大规模统计方法的一种改进。必须在三个方面进行现场应用:
(一)社会宏观经济层面尽管存在宏观经济法则,但根据过去的经验,由于缺乏安全可靠的数据和分析方法,宏观经济法则的分析则一直被认为是伪科学。大数据分析技术提供了探索宏观经济法则的机会,大数据技术使用数据创建系统,而使用许多信息技术的科学分析是宏观经济法研究中的重要一步。特别是,某些行业使用行业信息和对经济趋势预测的全面分析来帮助识别和克服复杂的工业发展挑战,可以提高宏观经济发展效率。
(二)企业经营管理层面在公司上载和数据受限的情况下,企业很难优化管理功能以提高性能[2]。由于业务经理的管理理念和管理水平受到限制,因此很难断定业务开发操作和管理流程是否存在问题。统计分析技术可用于计算和评估每个关键决策或业务战略适合性的有效性。如果由于大数据分析技术而导致预期的数据销量存在矛盾,该公司可以调整其总体战略并进行业务变更以优化管理理念。
(三)行业与行业之间存在着一定的鸿沟无论是快速消费品行业、食品行业还是大型公司,其经营理念和经济结构在公司治理方面都存在根本差异。统计数据分析技术使公司能够了解整个行业的消费者需求的性质,分析社会经济状况,能够了解共同的业务条件和业务发展情况,并优化或区分劣质产品。在某些情况下,此更改是提高产品价格的高级更改,如果消耗量和消耗品减少,则可以降低产品价格。产品必须能够升级以满足顾客需求。产品行业、食品行业或大型行业具有不同的经营理念和财务结构,还在进行公司管理。但是,各个行业的业务方向取决于消费者的需求。换句话说,公司开发了产品的功能并使产品的功能适应消费者的需求。对于公司而言,通过优化生产结构并提供更多定价和功能来说服更多消费者也很重要。
(四)企业财务管理层面财务管理贯穿公司治理的整个过程。公司财务管理非常有效,但是存在诸如财务管理的巨大风险之类的问题。对公司财务信息进行统计分析是防范财务风险的有效手段之一。公司需要管理其日常收入和支出,并进行大规模会计处理。企业可以使用大数据分析技术来监测财务管理功能并确保标准化业务的财务安全。利用统计分析技术和大数据,公司可以预测潜在的市场和行业风险,以提供最佳解决方案,还可以提供分析大数据的方法,可以跟踪异常并快速发现异常。
四、结语
本文首先从宏观经济方面、企业经营管理方面等两个方面对大数据统计分析方法在经济管理领域运用的意义进行了分析,然后从宏观经济方面、企业运营管理方面、企业营销管理方面、企业财务管理方面、企业人力资源管理方面以及企业风险管理方面等方面对大数据统计分析方法在经济管理领域的运用进行了分析,最后从社会宏观经济层面、企业经营管理层面、行业与行业之间存在着一定的鸿沟以及企业财务管理层面等方面提出了完善大数据统计分析方法在经济管理领域运用的措施。大数据分析技术被广泛用于宏观经济预测、业务管理和公司风险管理,它在优化公司治理和运营结构,有效改善公司治理以及提高公司统一性和核心竞争力等方面发挥着重要作用,可以使公司在激烈的市场竞争中有一席之地。
【参考文献】
[1]张琳.大数据统计分析方法在经济管理领域中的运用浅析[J].营销界,2019(38):291-292.
[2]杜珉.大数据统计分析方法在经济管理领域中的运用探析[J].山西农经,2019(12):27.
[3]陈雪琴.大数据统计分析方法在经济管理领域中的应用[J].山西农经,2019(5):37.
[4]陈文怡.大数据挖掘电力系统项目管理中理论的应用[C]//2018年6月建筑科技与管理学术交流会.
关键词:数据质量;可用性;评估方法
中***分类号:TP315 文献标识码:A 文章编号:1006-8937(2015)15-0062-02
随着大数据时代的来临,数据集合中劣质数据也随之大量产生,导致信息数据整体质量下降,数据的有效使用受到了极大限制。为了更加有效发挥各行各业大数据的作用,开展数据可用性研究具有较大的战略意义。
1 数据可用性定义
研究者们普遍认为,数据的可用性可以从数据的一致性、准确性、完整性、时效性及实体同一性五个方面进行考察,其具体定义如下:
①数据的一致性:指数据信息系统中各相关数据信息之间相容、不产生矛盾。
②数据的准确性:指数据信息系统中每个数据表示现实物体的精准程度。人们对数据进行操作的各个环节都可能影响数据准确性。
③数据的完整性:指数据集合包含的数据完全满足对数据进行各项操作的要求。
④数据的时效性:是指在不同需求场景下数据的及时性和有效性。对应用系统而言,往往对数据时效性要求较高,过时的数据即使分析出来了也不会对实际应用产生有价值的影响。
⑤实体的同一性:指同一实体在各种数据源中的描述统一。
一个数据集合,满足以上五个性质的程度称为该数据集合的可用性。
2 评估方法分析
对于数据可用性评估,国内外研究人员也进行了许多工作。以下从数据的一致性、精确性、完整性、时效性、实体同一性五个方面进行介绍和分析。
2.1 基于一致性的方法
文献[1]针对异地备份系统中数据持续变化的情况,设计并实现了一种基于累积摘要值的一致性检测方法。该方法解决了传统一致性检测需要中断备份任务的问题,保证了备份任务的连续性,并且能够迅速检测本地服务器和远程备份中心数据的一致性,提高了一致性检测的效率。
文献[2]从已有的一致性维护方法出发,针对海量数据多副本之间一致性维护,从一致性维护过程中所涉及的更新、更新传播方式、更新传播内容、更新冲突解决等几个方面进行了分析,提出了相应的解决办法。
文献[3]针对P2P分布存储系统中大型数据对象面临的数据一致性问题,提出了数据一致性维护方法PLCP。该方法从提高更新传播速度和减少日志空间开销的角度进行了数据优化。同时针对数据更新的问题和关键属性更新的问题,提出数据一致性维护方法DACP和KACP。
文献[5]从无线传感网络数据安全的角度,结合一些廉价的保护技术,提出了利用跨层一致性评估信息整体质量的方法。
基于数据一致性的方法,主要体现在集中存储方面,对于分布式和非关系数据方面研究还较少,适用于海量数据的一致性评估方法有待进一步探索。
2.2 基于精确性的方法
数据精确性方面的研究结果比较少见,文献[6]从精确度低的角度,提出了对应的精确性评估算法。该算法考虑了一种基于可能世界语义的描述方法。目前的研究结果显示,数据精确性的评估方法还有待研究者们深入探究。
2.3 基于完整性的方法
针对海量关系数据中普遍存在的数据不完整现象,刘永楠等研究了关系数据完整性度量问题。针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法。理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算,通过在DBLP数据上的实验验证了算法的有效性和高效性。
在具体应用领域,张少敏等利用IEC61970对智能电网进行信息集成,然后根据完整性定义,对智能电网数据进行自动机建模,给出了一种无需对数据进行直接操作的数据完整性定量评估模型。
Barcelo P等将传统的完整性理论扩展到XML数据上,讨论了不完整XML数据的表示问题。
另外,针对云存储服务中数据的完整性问题,一些研究者提出了PDP 和POR。这两种方案都采用了概率性证明思路,即存储服务提供商向数据拥有者证明其完整的持有数据拥有者存储的数据。
基于数据完整性评估方面的结论还较少,特别是具有普遍适用价值的方法,还有待进一步研究。
2.4 基于时效性的方法
文献[7]针对历史评价数据时效性会影响评价计算准确性的问题,引入了评价数据的时间属性,构造了评价数据衰减因子,减小了时效性对于评价计算准确性的影响。
文献[8]研究了包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.
在建筑能耗领域,文献[9]通过对几类典型公共建筑能耗数据的统计分析对比,提出了采用近1年的能耗数据作为统计样本的建议。
基于时效性方面的研究非常匮乏,已有的少量研究结论都主要针对一些特殊应用,还需深入系统的研究。
2.5 基于实体同一性的方法
实体同一性是数据可用性研究较多的一个方面,实体同一性研究主要涉及两类方法:第一类是从语义规则的角度进行同一性研究,这类方法主要通过经验知识来描述实体的同一性问题;第二类是从相似性的角度进行同一性研究,该类方法主要采用相似度函数来对实体同一性进行判定。
针对实体同一性方面的相关技术,包括实体识别的效率问题、识别的增量计算、半结构化数据上的实体识别等,文献[4] 展开了相对完整的讨论。
对于实体统一性的评估方法大多针对关系数据,针对复杂结构数据、半结构化数据、非机构化数据方面的研究还很少。
3 结 语
在大数据时代,数据量急剧增长,数据的可用性问题将严重影响基于数据的知识和决策。确保大数据的可用性是进行大数据分析、处理的关键基础,将直接关系到大数据价值的体现。本文针对数据质量问题,从数据可用性的角度,介绍并分析了目前国内外基于单个属性的数据质量评估方法,将有助于促进大数据可用性的研究。
参考文献:
[1] 刘仕一,李涛,刘哲哿,等.异地备份系统数据一致性检测方法[J].计算机工程与设,2010,(17).
[2] 周婧,王意洁,阮炜,等.面向海量数据的数据一致性研究[J].计算机科学,2006,(4).
[3] 周婧.P2P分布存储系统中海量数据的数据一致性维护技术研究[D].长沙:国防科学技术大学,2007.
[4] 刘显敏,李建.中实体识别问题的相关研究[J].智能计算机与应用,2013,(2).
[5] Mattia Monga,Sabrina Sicari.Asssing Data Quality by a Cross-Layer
Approach[D].Ultra Modern Telecommunications & Workshops,2009.
[6] Cheng R,Chen J,xie X.Cleaning uncertain data with quality guarant-
ees[J].Proceedings of the VLDB Endowment,2008,(1).
[7] 杨超,吴爱荣.基于衰减因子的评价数据时效性处理方法[J].计算机工程与设计,2010,(3).
关键词:数据质量;可用性;评估方法
随着大数据时代的来临,数据集合中劣质数据也随之大量产生,导致信息数据整体质量下降,数据的有效使用受到了极大限制。为了更加有效发挥各行各业大数据的作用,开展数据可用性研究具有较大的战略意义。
1 数据可用性定义
研究者们普遍认为,数据的可用性可以从数据的一致性、准确性、完整性、时效性及实体同一性五个方面进行考察,其具体定义如下:
①数据的一致性:指数据信息系统中各相关数据信息之间相容、不产生矛盾。
②数据的准确性:指数据信息系统中每个数据表示现实物体的精准程度。人们对数据进行操作的各个环节都可能影响数据准确性。
③数据的完整性:指数据集合包含的数据完全满足对数据进行各项操作的要求。
④数据的时效性:是指在不同需求场景下数据的及时性和有效性。对应用系统而言,往往对数据时效性要求较高,过时的数据即使分析出来了也不会对实际应用产生有价值的影响。
⑤实体的同一性:指同一实体在各种数据源中的描述统一。
一个数据集合,满足以上五个性质的程度称为该数据集合的可用性。
2 评估方法分析
对于数据可用性评估,国内外研究人员也进行了许多工作。以下从数据的一致性、精确性、完整性、时效性、实体同一性五个方面进行介绍和分析。
2.1 基于一致性的方法
文献[1]针对异地备份系统中数据持续变化的情况,设计并实现了一种基于累积摘要值的一致性检测方法。该方法解决了传统一致性检测需要中断备份任务的问题,保证了备份任务的连续性,并且能够迅速检测本地服务器和远程备份中心数据的一致性,提高了一致性检测的效率。
文献[2]从已有的一致性维护方法出发,针对海量数据多副本之间一致性维护,从一致性维护过程中所涉及的更新、更新传播方式、更新传播内容、更新冲突解决等几个方面进行了分析,提出了相应的解决办法。
文献[3]针对p2p分布存储系统中大型数据对象面临的数据一致性问题,提出了数据一致性维护方法plcp。该方法从提高更新传播速度和减少日志空间开销的角度进行了数据优化。同时针对数据更新的问题和关键属性更新的问题,提出数据一致性维护方法dacp和kacp。
文献[5]从无线传感网络数据安全的角度,结合一些廉价的保护技术,提出了利用跨层一致性评估信息整体质量的方法。
基于数据一致性的方法,主要体现在集中存储方面,对于分布式和非关系数据方面研究还较少,适用于海量数据的一致性评估方法有待进一步探索。
2.2 基于精确性的方法
数据精确性方面的研究结果比较少见,文献[6]从精确度低的角度,提出了对应的精确性评估算法。该算法考虑了一种基于可能世界语义的描述方法。目前的研究结果显示,数据精确性的评估方法还有待研究者们深入探究。
2.3 基于完整性的方法
针对海量关系数据中普遍存在的数据不完整现象,刘永楠等研究了关系数据完整性度量问题。针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法。理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算,通过在dblp数据上的实验验证了算法的有效性和高效性。
在具体应用领域,张少敏等利用iec61970对智能电网进行信息集成,然后根据完整性定义,对智能电网数据进行自动机建模,给出了一种无需对数据进行直接操作的数据完整性定量评估模型。
barcelo p等将传统的完整性理论扩展到xml数据上,讨论了不完整xml数据的表示问题。
另外,针对云存储服务中数据的完整性问题,一些研究者提出了pdp 和por。这两种方案都采用了概率性证明思路,即存储服务提供商向数据拥有者证明其完整的持有数据拥有者存储的数据。
基于数据完整性评估方面的结论还较少,特别是具有普遍适用价值的方法,还有待进一步研究。
2.4 基于时效性的方法
文献[7]针对历史评价数据时效性会影响评价计算准确性的问题,引入了评价数据的时间属性,构造了评价数据衰减因子,减小了时效性对于评价计算准确性的影响。
文献[8]研究了包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.
在建筑能耗领域,文献[9]通过对几类典型公共建筑能耗数据的统计分析对比,提出了采用近1年的能耗数据作为统计样本的建议。
基于时效性方面的研究非常匮乏,已有的少量研究结论都主要针对一些特殊应用,还需深入系统的研究。
2.5 基于实体同一性的方法
实体同一性是数据可用性研究较多的一个方面,实体同一性研究主要涉及两类方法:第一类是从语义规则的角度进行同一性研究,这类方法主要通过经验知识来描述实体的同一性问题;第二类是从相似性的角度进行同一性研究,该类方法主要采用相似度函数来对实体同一性进行判定。
【关键词】企业并购;目标企业;数据包络分析方法
【Abstract】With the vigorous development of China’s economy, the development of modern enterpris in mergers and acquisitions played a pivotal role, and also an important way to the development of enterpris mergers and acquisitions. M & A target company’s choice is a key part of mergers and acquisitions, Acquirer when choosing target enterpri for its particular advantage the target enterpri, to eliminate or control to improve the competitive power of itlf. Companies usually choo the target company in the implementation of M & A process methods are: corporate indicators and data envelopment analysis (DEA) methods. Through a comprehensive analysis and comparison, the data envelopment analysis (DEA) method is a more efficient method of choosing the target company.
【Key words】Mergers and acquisitions; Target company; Data Envelopment Analysis
0 引言
目前企业产业化加剧集中,为使企业能够更快地发展,企业并购已成为一种必然趋势。企业并购的实质是企业控制权的一种权利变迁。并购过程需要在特定约束条件下才能够进行,在并购中一部分权利所有者通过让出所拥有的控制权,而另一部分权利所有者则付出某些代价来分别换取相应的利益。实际上,企业并购的过程是权利主体不断变换的过程。
目标企业的选择是一项复杂的工作,通过多角度全方位衡量一个企业的运营管理、财务管理、人力资源管理、企业文化管理等不同方面, 才能判断是否该企业能够实施企业并购。当前企业并购过程中,目标企业的选择方法层出不穷,有的甚至是面向企业并购后的一些活动研究,但其大多数都是运作性和实践性较差。以往企业实施并购过程选择目标企业一般会运用指标评价法,而指标评价方法的核心是根据理论研究和实践经验,制定出的一系列指标, 依据这些指标对企业进行评估,但在这种评价方法的指导下, 并购之后企业的运营绩效可能并不理想, 甚至许多企业会发现这样的是错误的。因此为解决上述问题,一种新的企业并购方法即数据包络分析(DEA)方法被提出。稻莅络分析(DEA)方法是同时考虑多个输人指标和多个输出指标, 判定哪些企业符合并购的条件和标准,对于那些不符合并购标准的企业给出改进的意见。
1 数据包络分析(DEA)评价方法
1.1 DEA评价方法的概述
数据包络分析(Data Envelopment Analysis,简称DEA)由查恩斯等学者提出,通过不断地运算研究,把单输入单输出的理论演变到多输入多输出,尤其是多输出的同类型决策单元(DMU)的有效性评价中。DEA 是运用数学模型来评价具有多个输入和多个输出的“部门”或“单元”的相对有效性。依据DMU的每个观测数据判别其是否有效,实际上是判别各DMU 是否位于生产可能集的“前沿面”上。DEA方法的基本思想是,一个决策单元的输出矢量是由其他DMU输出向量从“顶”包络,输入向量是从“底”的其他输入向量包络,如果某个DMU 的输人和输出向量不能同时被包络时, 认为决策单元DEA为有效决策单元,否则是无效决策单元。
1.2 DEA基本模型
在实际市场运营中,企业常会遇到多输入多输出情形,尤其是针对多输出的生产过程,方法解决很难找到。在1978年,运筹学家查恩斯等运用数学模型得出最基本的C2R模型。C2R 模型有两种形式,一种是分式规划,另一种是线性规划,这两种形式是等价的。考虑到计算方便本文将采用线性规划形式。
依据凸性、锥性、无效性和最小性的定理假设,可以得出以下带有非阿基米德无穷小量ε的C2R模型:
1.3 输入、输出指标的选择
DEA方法的输人、输出指标的选择必须遵循以下的原则:(1)指标是可获取的;(2)该指标是可测量的;(3)该指标能够反映企业的实际情况。根据以上标准, 综合考虑企业在实施并购过程中的特点和要求, 制定出以下DEA评价方法的输入、输出指标,如表1所示。
表1 DEA方法的输入、输出指标
1.4 DEA模型在企业并购中的应用及其结构分析
假设有n 个待评价的决策单元(DMU),有n个输入指标,有s个输出指标。如果这是用来评估的输入输出线性组合之比决策,其输出的决策单元的线性组合的比值小于或等于1,从而构成一个相对有效评价的DEA计算模型, 即CCR模型:
从以上结果, 可以看出: 企业1 和企业2 对应的有效值分别为0.946 和0.9 52, 均属于非DEA有效。企业3 的有效值为1 , 属于DEA 有效。表中松弛变量反映了各企业的输人变量和输出变量的调整程度。举例来说, 企业2 需要增加42 名员工, 增加63万元的财***拨款, 并降低39%的资产负债率, 才能够达到DEA有效。因此,企业3是理想的并购对象。
2 结论
根据上述的分析,在企业的并购过程中采用数据包络分析(DEA)方法能够有效的解决目标企业的评估和选择的问题,通过DEA方法的指导,并购的企业可以在众多的目标企业中选择出较为理想的并购企业。与企业的指标评价法相比较,数据包络分析(DEA)方法的优点:
(1)多个输入和多个输出可以同时考虑,而不用确定单个输入和输出的权重;
(2)DEA方法不但能够处理组内信息,还能够处理组间信息,在给出评价结果的同时,还可以给出具体的改进意见;
(3)“局部优化的思想”―求现实中的最优解,而非理想中的最优解。
【参考文献】
[1]马占新.数据包络分析方法的研究进展[J].系统工程与电子技术,2002,3(24):42-46.
[2]李亮,崔晋川.DEA方法中输入输出项目的选择和数据处理[J].系统工程学报,2003,6(18):487-490.
[3]张俊荣,郭耀煌.评价指标与DEA有效性的关系,系统工程理论与方法应用,2004.12.
[4]李美娟,陈国宏.数据包络分析法的研究和应用,中国工程科学,2003.6.
[5]魏权龄.数据包络分析,科学出版社,2004.8(1).
[6]张雯,孙茂竹.企业并购及其绩效.经济与管理研究,2012(8):5-13.
[7]姜付秀,张敏.并购还是自行投资:中国上市公司扩张方式选择研究.世界经济,2008(8):78-84.
[8]吴文江.只改变输出使决策单元变为DEA有效.系统工程,1995,13(2):17-20.
[关键词]算法 数据挖掘 分类 决策树
一、引言
随着社会的进步和经济的发展,社会各领域活动中会不断产生大量的数据,人们把这些按照一定的数据模型保存在数据库中。数据库中隐藏着许多可以为商业和科研等活动的决策提供所需要的知识,如何有效地获取这些知识,数据挖掘技术中的分类方法正是解决这个问题的可行而有效的方法。
分类方法是一种重要的数据挖掘技术,分类的目的是根据数据集的特点构造一个分类函数或分类模型,该模型能把未知类别的数据映射到给定类别的某一个中。该方法通常用于预测数据对象的离散类别。目前分类方法已被广泛应用于各行各业,如银行信用评估、医疗诊断、高等教育评估和市场营销等实际应用领域。本文将对数据挖掘分类方法中的决策树算法加以分析。
二、数据分类技术概述
数据分类过程主要包含两个步骤:第一步建立一个描述已知数据集类别或概念的模型;该模型是通过对数据库中各数据行内容的分析而获得的。每一数据行都可以认为是属于一个确定的数据类别,其类别值是由一个属性描述(即类别属性)。分类学习方法所使用的数据集称为训练样本集和,因此分类学习又称为监督学习,它是在已知训练样本类别情况下,通过学习建立相应模型;而无监督学习则是训练样本的类别与类别个数均未知的情况下进行的。通常分类学习所获得的模型可以表示为分类规则形式、决策树形式或数学形式。
第二步就是利用所获得的模型进行分类操作,首先对模型分类准确率进行估计,holdout方法就是一种简单的估计方法。它利用一组带有类别的样本进行分类测试(测试样本随机获得且与训练样本相互***)。对于一个给定数据集所构造出模型的准确性可以通过由该模型所正确分类的数据样本各书所占总测试样本比例得到。
为了提高分类的准确性、效率和可扩展性,在进行分类之前,通常要对数据进行以下预处理。
1.数据清理。主要帮助出去数据中的噪声,并妥善解决遗失数据的问题。
2.相关性分析。其目的是删除那些与分类任务不相关的或冗余的属性。
3.数据转换。利用概念层次树,数据能够被泛化到更高的层次。例如属性“收入”的数值就可以被泛化为“低、中等、高”的离散区间。
以数据库为研究对象,数据挖掘分类模型的构造算法主要有决策树、贝叶斯、神经网络、基于关联和基于数据库技术的方法等。
三、决策树(decision tree)分类算法
所谓决策树就是一个类似流程***的树型结构,决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同的属性值从该结点向下分支,其中树的每个内部节点代表对一个属性的测试,叶结点是要学习划分的类。从根节点到叶结点的一条路径就对应着一条分类规则,整个决策树就对应着一组析取表达式规则。树的最高层点就是根节点。
决策树的生成分为学习和测试两个阶段。决策树学习阶段采用自顶向下的递归方式。决策树算法分两个步骤:一是树的生成,开始时所有数据都在根节点,然后递归地进行数据划分,直至生成叶结点。二是树枝修剪,在一个决策树刚刚建立起来的时候,它其中的许多分支都是根据训练样本集合中的异常数据(由于噪声等原因)构造出来的。树枝修剪就是去掉一些可能是噪声或异常的数据。决策树停止分割的条件是一个节点上的数据都是属于同一个类别;没有属性可以再用于对数据进行分割。决策树模型可以建立得很快,并适合应用到大量的数据上。
目前已经形成的决策树算法有:ID3、C4.5、SLIQ、SPRINT、RainForest、CLS、CHAID、CART、FACT、GINT、SEE5等。其中比较有著名的是Quinlan提出的ID3算法,以及在ID3算法基础上提出的C4.5算法。
1.ID3算法原理
基本决策树构造算法就是一个贪心算法,它采用自顶向下递归的方法构造决策树。著名的决策树算法ID3算法的基本策略如下:
(1)树以代表训练样本的单个节点开始。
(2)如果样本都在同一个类中,则这个节点成为树叶结点并标记为该类别。
(3)否则算法使用信息熵(称为信息增益)作为启发知识来帮助选择合适的将样本分类的属性,以便将样本集划分为若干子集。该属性就是相应节点的“测试”或“判定”属性。同时所有属性应当是离散值。
(4)对测试属性的每个已知的离散值创建一个分支,并据此划分样本。
(5)算法使用类似的方法,递归地形成每个划分上的样本决策树。一个属性一旦出现在某个结点上,那么它就不能再出现在该结点之后所产生的子树结点中。
(6)整个递归过程在下列条件之一成立时停止。
给定结点的所有样本属于同一类。
没有剩余属性可以用来进一步划分样本,这时候该结点作为树叶,并用剩余样本中所出现最多的类型作为叶子结点的类型。
某一分枝没有样本,在这种情况下以训练样本集中占多数的类创建一个树叶。
ID3算法的核心是在决策树各级结点上选择属性时,用信息增益作为属性的选择标准,以使得在每一个非结点进行测试时,能获得关于被测试记录最大的类别信息。某属性的信息增益按下列方法计算,通过计算得到每个属性的信息增益,比较它们的大小,就可以获得最大信息增益的属性。
设S是s个数据样本的集合。假设类标号属性具有m个不同值,定义m个不同类别()。设是类别中的样本个数,那么要对一个给定数据对象进行分类所需要的信息量为:
其中是任意一个数据对象属于类别的概率。其中 log函数是以2为底,其原因是信息使用二进制编码。
设属性A具有v个不同的值{}。利用属性A可以将集合S划分为v个子集{},其中包含了S集合中属性A取()值的数据样本。若属性A被选为测试属性,设为子集中属于类别的样本数。由A划分成子集的熵或信息期望可以计算如下:
熵值越小,子集划分的纯度越高。对于给定的子集,其信息期望计算为,其中是
中样本属于类别的概率。
这样利用属性A对当前分支结点进行相应样本集合划分所获得的信息增益就是:
决策树归纳算法计算每个属性的信息增益,并从中挑选出信息增益最大的属性作为给定集合 的测试属性并由此产生相应的分支结点。所产生的结点被标记为相应的属性,并根据这一属性的不同取值分别产生相应的分支,每个分支代表一个被划分的样本子集。
ID3算法的优点是理论清晰,方法简单,学习能力较强。其缺点是:
只能处理值是离散的属性,不能处理连续值的属性。
计算信息增益时偏向于选择取值较多的属性,不太合理。
对训练集合众属性值或类别给错的数据(即噪声)比较敏感。
在构造树的过程中需要多次扫描数据集,因而导致算法的低效。
只适合驻留于内存中的数据集使用,对训练集合大得无法在内存容纳的数据集无法运行。
2.树枝修剪
在一个决策刚刚建立起来的时候,由于许多分支是由训练样本集和中的异常数据(由于噪声等原因)构造出来的,决策树过于“枝繁叶茂”,这样既降低了树的可理解和可用性,同时也使决策树本身对历史数据的依赖性增大,也就是说这是这棵决策树对此历史数据可能非常准确,一旦应用到新的数据时准确性却急剧下降,这种情况被称为训练过度。为了使得到的决策树所蕴含的规则具有普遍意义,必须对决策树进行修剪。树枝修剪的任务主要是删去一个或更多的树枝,并用叶子替换这些树枝,使决策树简单化,以提高今后分类识别的速度和分类识别新数据的能力。
通常采用两种方法进行树枝的修剪,它们分别是:
(1)事前修剪方法。该方法通过提前停止分支生成过程,即通过在当前节点上就判断是否需要继续划分该节点所含训练样本寄来实现。一旦停止分支,当前节点就成为一个叶节点。该叶节点中可能包含多个不同类别的训练样本。由于该修剪是在分支之前做出的,所以称之为事前修剪。
(2)事后修剪方法。该方法是从另一个角度解决训练过度的问题。它在允许决策树得到最充分生长的基础上,再根据一定的规则,剪去决策树中的那些不具有一般代表性的叶节点或分支。修剪后,被修剪的分支节点就成为一个叶节点,并将其标记为它所包含样本中类别个数最多的类别。
3.C4.5算法
C4.5算法在ID3算法的基础上,在以下几个方面进行了改进:
(1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性不足。
(2)在树构造过程中进行剪枝。
(3)能够完成对连续属性的离散化处理。
(4)能够对不完整数据进行处理。
C4.5算法产生的分类规则易于理解,准确率较高。但是和ID3算法一样在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,导致算法低效;此外,C4.5也只适合于驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
4.其他决策树算法
ID3算法和C4.5算法的有效性已经通过对许多小数据集的学习归纳得到了验证。但当应用这些算法对大规模现实世界数据库进行数据挖掘时,算法的有效性和可扩展性就成为应用的关键。近年来,数据挖掘领域中又提出了许多有关决策树可扩展问题的解决方法。其中比较有代表性的算法有SLIQ方法和SPRINT方法。
SLIQ算法对C4.5决策树算法的实现方法进行了改进,在决策树的构造过程中采用了“预排序”和“广度优先策略”两种技术。所谓预排序,就是针对每个属性的取值,把所有的记录按照从小到大的顺序进行排序,以消除在决策树的每个结点对数据集进行的排序。集体实现时,需要为训练数据集的每个属性创建一个属性列表,为类别属性创建一个类别表。广度优先策略构造决策树,即在决策树的每一层只需对每个属性列表扫描一次,就可以为当前决策树中每个叶结点找到最优***标准。SLIQ算法由于采用了上述两种技术,使得该算法能够比C4.5大得多的训练集,在一定范围内具有良好的随记录个数和属性个数增长的可伸缩性。
SPRINT算法去掉了SLIQ中需要驻留于内存的类别列表,将其合并到每个属性列表中。这样,在寻找当前结点的最优***标准时,遍历每个属性列表就不必参照其他信息。但是,对非***属性的属性列表进行***变得很困难,需要用哈希表记录下每个记录属于个孩子结点。SPRINT算法具备以下优点:(1)训练样本量不受内存限制。(2)具有优秀的伸缩性、加速性和扩容性。(3)并行实现容易,效率高。SPRINT算法具备以下缺点:(1)使用属性列表,存储代价是原来的三倍。(2)节点分割要创建哈希表,加大系统负担。(3)节点分割处理相对复杂。
此外,RainForest也是一个基于决策树归纳的数据挖掘系统。RainForest可根据当前可用内存的大小,自适应地安排决策树归纳算法的具体操作过程。它保持一个AVC集合(属性―值,类别),用以描述每个属性的类别分布。RainForest的归纳速度要高于SPRINT方法。
四、结束语
以上是几种常用的基于决策树的分类算法,随着算法研究的进行,出现了许多其他基于决策树的算法,它们与神经网络、遗传算法等技术结合,从不同的方面对算法进行了改进和提高。我们也可以相信未来还会出现更多、更好、效率更高的分类算法。
参考文献:
[1] Jiawei Han & Micheline Kambr.Data Mining: Concepts and Techniqyes[M].高等教育出版社,2001.
本文发布于:2023-07-29 02:06:19,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/zuowen/1692861888635057.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:数据分析的方法精选6篇.doc
本文 PDF 下载地址:数据分析的方法精选6篇.pdf
留言与评论(共有 0 条评论) |