过程挖掘(ProcessMiningManifesto):从⽇志中挖掘知识近年来,事件⽇志数据越来越多,也越来越容易获取。作为⼀个年轻的跨领域的交叉研究⽅向,过程挖掘发展迅速。什么是过程挖掘,过程挖掘算法如何在各类学术和商业系统中得以实现,以及过程挖掘⾯临哪些技术挑战。本⽂将进⾏深⼊探讨。
IEEE过程挖掘⼯作组
过程挖掘(process mining),指从现代信息系统中常见的事件⽇志中获取过程知识,发现、监测和改进实际系统⾏为模式(⽤过程模型来表达)。其原理如图1所⽰。
图1 过程挖掘:从事件⽇志中抽取信息,从⽽发现、监测和改进过程你好啊英文
过程挖掘在数据挖掘和业务过程管理之间搭建了⼀个重要的桥梁,推动了新型商务智能(business intelligence,BI)技术发展。⽐如,业务活动监测(business activity
monitoring,BAM)⽤来实时监测业务过程运⾏情况;复杂事件处理(complexevent processing,CEP)⽤于业务监测、引导和优化;公司业绩管理(c o r p o r a t eperformance management,CPM)度量过程或者组织效能。其他技术还有持续过程改进(continuous process improvement,CPI)、业务过程智能(business
processintelligence,BPI)、全⾯质量管理(totalquality management,TQM)和六西格玛管理(6-Sig
ma)等。这些技术都将过程“放在显微镜下”观测,以寻找改进的可能性。因此,过程挖掘是CPM、BPI、TQM、6-Sigma等管理理念的使能技术。
过程挖掘现已成为业务过程管理(BPM)研究中的热门课题之⼀,有⼀群很活跃的研究者致⼒于过程挖掘⼯作。⼯业界对过程挖掘也表现出浓厚的兴趣,越来越多的软件商将过程挖掘功能添加到他们的软件产品中,包括:ARIS
PPM(Software AG)、Comprehend(Open Connect)、Discovery Analyst(StereoLOGIC)、
Flow(Fourspark)、Futura Reflect(Futura Process Intelligence)、Interstage Automated Process
Discovery(
Fujitsu)、OKT Process Mining suite(Exeura)、ProcessAnalyzer(QPR)、ProM(TU/e)和
Reflect|one(Pallas Athena)等。英文游戏名字大全
⾯向⽇益增长的对⽇志数据进⾏过程分析的需求,2009年IEEE计算智能学会(Computational IntelligenceSociety)下的数据挖掘技术委员会(DataMining Technical Committee)设⽴了IEEE过程挖掘⼯作组(IEEE Process Mining
Task Force)[1]。
纹身学校⽬前IEEE过程挖掘⼯作组包括三类成员:(1)软件制造商,包括HP、IBM、Infosys、SoftwareAG、Pallas Athena、Fujitsu Laboratories等;(2)咨询公司/最终⽤户,包括Gartner、Process-Gold、Business Process Trends、Deloitte等;(3)研究机构,包括如TU/e、University of Calabria、Penn State University、Queensland
University ofTechnology、University of Haifa、K.U. Leuven、清华⼤学、University of Innsbruck等。
IEEE过程挖掘⼯作组的使命:(1)向⽤户、开发者、咨询顾问、业务经理和研究⼈员展现过程挖掘的最新成果;(2)促进过程挖掘技术和⼯具的使⽤,推动开发新的应⽤软件;(3)致⼒于⽇志数据记录的标准化;(4)组织过程挖掘培训、学术会议、专题研讨班;(5)发表学术⽂章、出版教程书籍、发布专刊和视频。
为了推动过程挖掘作为业务过程设计、改进和控制的新型⼯具的进⼀步发展,2011年IEEE过程挖掘⼯作组发布了《过程挖掘宣⾔》[2]。该宣⾔阐述了过程挖据技术发展现状、应⽤指南和未来挑战,得到了学术界、⼯业界和最终⽤户的⼴泛关注,⽬前已被翻译成汉语、荷兰语、法语、德语、希腊语、意⼤利语、⽇语、韩语、葡萄⽛语、西班⽛语、⼟⽿其语等11 国语⾔。
发展现状
信息系统的⼴泛应⽤使得事件记录(⽇志数据)变得⽆处不在,包括从ATM机中取款、医⽣校准X射线机、公民申请驾照、纳税申报的提交、游客获取电⼦客票等。简单收集⽇志数据并不能解决⼈们所关⼼的管理问题,⽐如洞察异常、识别瓶颈、预测问题、违规判定、对策推荐和优化处理等。为了解决上述问题,过程挖掘应运⽽⽣,其本质在于⽀持以⼀种有意义的⽅式利⽤⽇志数据。
合算过程挖掘的起点是⽇志数据。过程挖掘技术假定系统能够连续地记录事件,每个事件代表⼀个活动(对应过程模型的某个任务),同时每个事件都和⼀个特定的案例(即⼀个过程实例)相关。事件⽇志还包括其它信息,如资源(即⼈或设备)的执⾏或初始化活动、事件的时间戳或者在事件涉及的数据元素(如订货数量等)。百威啤酒广告歌曲
无论何时
图2 三种典型的过程挖掘场景:过程发现、符合性检查和模型增强
过程挖掘典型应⽤场景(如图2所⽰)包括:过程模型发现(即从⽇志数据中挖掘出过程模型)、合规性检查(即通过对⽐模型和⽇志来监测运⾏偏差)、过程模型演化/增强、社交⽹络/组织挖掘、仿真模型的⾃动⽣成、模型修复、案例预测,以及基于历史的推荐等。
认识数据挖掘技术要避免三⽅⾯误区:
过程挖掘仅局限于控制流发现 控制流发现当然是过程挖掘中最令⼈兴奋的应⽤,然⽽,过程挖掘并
不局限于控制流发现,还可以发现相关的组织模型、案例模型(即业务数据模型)和时间约束等信息。
过程挖掘只是数据挖掘的⼀种简单应⽤ 传统数据挖掘技术(如关联规则和决策树等)并不是以过程为中⼼,过程挖掘以⽀持并发语义的过程模型来表征挖掘结果,传统数据挖掘技术并不能有效解决这⼀问题。
过程挖掘仅局限于离线分析 过程挖掘通常是从历史事件数据中提取过程知识,但是过程挖掘技术也可以应⽤于正在运⾏的案例中。例如,可以借助于发现的过程模型来预测正在执⾏的⽤户订单的完成时间。
pheic主要挑战
过程挖掘仍然是⼀门新兴研究⽅向,⼀⽅⾯,⽇志数据规模以惊⼈的速度增长,软件⽇志(softwarelog)已成为⼈们公认的⼤数据之⼀[3],另⼀⽅⾯,过程和信息需要进⾏对齐,以满⾜与符合性、效率和⽤户服务相关的需求。《过程挖掘宣⾔》总结了过程挖掘领域⾯临的主要挑战如下:
发现、合并和清洗⽇志数据 获取可⽤的⽇志数据需要克服以下困难:(1)数据可能分布在多个数据源上,这类信息需要关联与合并;(2)事件数据有时“以对象为中⼼”,⽽⾮“以过程为中⼼”,例如,
RFID标签记录的事件会指向所绑定的产品、集装箱或容器;(3)事件数据可能是不完备的,有些事件的时间信息可能丢失;(4)⼀个事件⽇志可能包含异常⾏为,也称为噪⾳或不⼀致;(5)⽇志会包括不同粒度与级别的事件,⽐如,时间戳精度范围从精细的毫秒级别(28-
acquaintances9-2011:h11m28s32ms342)到粗糙的⽇期信息级别(28-9-2011);(6)某些事件发⽣在特定环境中,如天⽓、负载、⼀周的某⼀天等等。
处理多类⽇志数据 不同事件⽇志的特征有着很⼤差异。有些事件⽇志规模特别⼤,以⾄于难以处理,⽽有的事件⽇志规模特别⼩,以⾄于没有⾜够的可⽤数据来得出可信的结论。由于事件⽇志只包含样例⾏为,它们不应该被假定为完备的。过程挖掘技术需要通过“开放世界假设”来处理不完备性,所谓“开放世界假设”指的是:某些事情没有发⽣并不意味着它不能发⽣。这给处理包含许多变化的⼩规模事件⽇志带来了挑战。
构建⼴泛接受的基准 当前过程挖掘技术与产品还没有形成统⼀的评价标准。⼀⽅⾯需要真实数据集;另⼀⽅⾯也需要⼈⼯数据集。对真实数据集的需求是不⾔⽽喻的,⽽⼈⼯数据集,如不完备事件⽇志、有噪⾳的事件⽇志,则有助于开发新型过程挖掘技术。
tooth的复数处理概念漂移 概念漂移是指,业务过程模型随着时间推移⽽改变,即过程演化。例如,在业务初期,两个活动是并发关系,随着业务的推进,⽇志中这些活动变成了顺序关系。在实际应⽤中,只有
少数过程模型处于相对稳定状态,因此理解概念漂移对于过程管理来说⾮常重要。为了应对概念漂移需要创新性研究⼯作。
改进过程模型的表⽰⽅式 过程挖掘技术需⽤⼀种建模语⾔(如BPNM或Petri⽹)描述结果模型。选择⼀种建模语⾔,即意味着限制了过程挖掘的探究空间:不能被建模语⾔表⽰的过程不能被发现。建模语⾔是否允许并发,对发现模型的可视化和算法考虑的模型类别都会产⽣影响。过程挖掘领域需要⼀种更严谨和精确的表⽰⽅式。权衡拟合度、简洁度、精确度和泛化度等。
质量标准 事件⽇志通常是不完备的,即只记录了⼀些样本⾏为。过程模型有四个互相竞争的质量维度:拟合度、简洁度、精确度、泛化度。权衡拟合度、简洁度、精确度和泛化度仍是⼀项挑战性⼯作。
海外看中国军事跨组织过程挖掘 传统上,过程挖掘应⽤于单⼀的组织内部。但是,随着服务技术、供应链集成和云计算的普及,会遇到包含多组织的事件⽇志的应⽤分析场景。原则上,对于跨组织的过程挖掘来说,存在以下两种情况:⼀,我们可考虑不同组织协同⼯作,处理过程实例的协作环境;第⼆,不同组织环境中执⾏相同的过程,需要分享业务经验与知识。跨组织过程挖掘技术应该考虑隐私和安全问题,组织间也许因为竞争或缺乏信任的原因⽽不想分享信息。因此,开发隐私保护的过程挖掘技术是很有必要。
提供在线运营⽀持 过程挖掘起步于对历史数据的分析,今天多数数据源都是(接近)实时更新的,我们有时会期望即时完成事件数据的分析。过程挖掘已不局限为离线分析,开始提供在线运营⽀持。历史数据可以⽤来构建预测模型,这些模型被⽤来指导正在执⾏的过程实例。例如,有时需要预测⼀个案例的剩余处理时间,有时需要构建⼀个任务推荐系统,以减少开销、缩短时间。在线过程挖掘技术,对计算能⼒和数据质量都提出了新的挑战。
融合过程挖掘与其它类型的分析技术 运营管理,特别是运筹学,是⼀个依赖于建模技术的管理科学分⽀。它使⽤了各种数学模型,从线性规划和项⽬规划到排队模型、马尔科夫链和仿真模型。数据挖掘被定义为“通过对数据集(通常是⼤数据集)所做的分析,来寻找未知关系,以及⽤⼀种容易被数据所有者理解且有⽤的新型⽅式总结概括数据”。过程挖掘技术,应该与分类(如决策树学习)、回归分析、聚类(例如,k均值聚类)和模式发现(如关联规则
学习)等已经开发的技术融合使⽤。
⽅便最终⽤户使⽤ 过程挖掘的⽬标之⼀是构造“实时过程模型”,即正在使⽤的过程模型,⽽不是已经归档的过程模型。新产⽣的事件数据可被⽤于发现涌现的⾏为,事件数据和过程模型之间的关联允许将当前的状态和最近的活动投影到最新的模型上。这样,最终⽤户需要经常与基于过程挖掘的结果进⾏交互,因此需要直观、友好的⽤户界⾯。
⽅便最终⽤户理解 即使产⽣了过程挖掘结果,并不意味着结果就真正可⽤。有时,⽤户由于不理解输出的内容,⽽被误导到不正确的结论。为了避免这样的问题,挖掘结果应该⽤⼀种合适的表⽰⽅式展⽰出来。同时,应明确给出挖掘结果的可信度。现存的过程挖掘技术⼀般不会对拟合度过低或者过⾼的结果给出警告,即使有时很明显由于数据量过⼩⽽⽆法得到任何可信的结论。