rrk关于数据挖掘的⼏点思考(⼀)
随着在公司⾥⾯⼀个个项⽬的推进和完成,并且项⽬结果也都受到客户的好评,这⾥将最近关于数据挖掘的⼀点思考分享出来,也希望能够和⼤家讨论。这⾥说的思考主要是围绕着从数据中得到的消费者洞察帮助客户来改进其市场、销售和客户⽀持操作过程的相关内容。
1. 为什么是现在?
雅思英语词汇《⼤数据时代》早已成为去年最⽕爆的畅销书,⽹上关于3V(Volume,Velocity , Variety) 也会在各式各样的“⼤数据”的话题中提及。很多⼈也都知道⼤多数的数据挖掘技术,⾄少是学术算法也存在了数⼗年,为什么现在的商业如此的关注?这⾥不想说什么⼤数据的战略,管理等很⼤的内容。仅仅简单讲讲我看到的⼀些内容和切⾝感受。
① 从数据中更“全⾯”的了解消费者
曾经读麦肯锡报告中有提到快消品企业在以下⼏个⽅⾯如果能够更好的运⽤数据将能够为企业创造更多的价值,并且也估算了相关的数值。⼀些报告的相关内容如下:
波特率We estimate that the applications of open data in consumer product can enable $520billion to $1.47 trillion in value annually Marcket share shifts could also occur across the industry,as companies gain
advantage by incorporating open data into
丝袜英文their analytics.--《MGI Open Data FullReport》
二本较好的医科大学
bubble ball
公司项⽬⾥在处理消费者表达数据过程中,会对数据内容的⾼峰值,数据的长尾部分多次的进⾏多次data mining直到得到尽可能多的洞察为⽌。在⼏个项⽬中我们也发现,⼀些特别多的表达内容的聚类内容可能都是⼤家在⽣活中会特别会出现和表达的,但是在处于长尾部分的数据往往有着很多连品牌商本⾝从来都没有想到的创新点。例如在⼀个薯⽚项⽬,我们发现了原来薯⽚的吃法可以有⼗来种,原来薯⽚包装有种种的利⽤,原来还有薯⽚哥的存在等。
做Data mining进⾏消费者洞察的过程就像是安安静静的浸⼊到消费者的⽣活中,没有任何假设,从不发问,仅仅是聆听和观察,为品牌商还原出⼀个最真实的消费者状态,⼀点⼀滴的刻画出⼀个⽣动⽽全⾯的消费者画像,⽽不再是⼀张曝光不⾜的照⽚。
懦夫英文
② 数据⼤量产⽣,技术的成熟提供基础
数据⼤量产⽣这⼀点就不⽤说了,看看我们每个⼈⼀天的⽣活⾥会有多⼤的⽐例泡在⽹上,再加上未来各种可穿戴设备,物联⽹的普及,数据量之⼤难以想象。我主要想谈谈技术,也许技术这个词不够专业,⾃⼰在编程,数据存储⽅⾯也不是特别了解,这⾥就说说算法这⼀部分。记得原先在《数据结构和算法》⼀开篇就提到关于等差数列求和的计算机求和计算,我们从⼩就知道等差数列的求和可利⽤算法公式,该算法利⽤了⾸尾两个数据和是⼀样的数据结构特征从⽽更简洁。告诉计算机进⾏求和命令可以是两种⽅法 1.⼀项项的加,2.直接利⽤算法,利⽤第⼀个⽅式可能在数据量少的时候计算速
声称英文
度与第⼆种相⽐不会有太⼤的差异,但如果数据量很⼤,后者的优越性将很明显。后来在接触到Apriori算法时候⾥⽤看到算
法会⽤到⼀些剪枝⼿段减少计算机运算量的时候忍不住拍案叫绝。
另外,各式各样的统计软件的背后都有着⼤量的contributors将⾃⼰的算法程序包分享到⽹上,供后来⼈更便捷的调⽤使⽤。互联⽹的这种集体智慧的共享创造⽅式让后来⼈站在前⼈的肩膀上,⾛的更远。但是在调⽤这些算法的过程中还是要对算法本⾝有⼀些原理上的理解,算法和数据结构是钥匙和锁,我们在实际操作的过程中还需要根据具体的情况灵活和适当的使⽤,会在后⾯的分享⾥细说。
③ 信息也是产品
许多公司所拥有的客户信息不仅仅对⾃⼰有价值,同时对他⼈也同样具有价值。如今很多的淘宝店铺之间也有了很多的消费者数据的共享。互联⽹也改变了品牌和品牌之间的关系,⼀个拥有很多青少年⼉童数据的公司完全可以将⾃⼰的数据分享给做⼉童⾷品的公司,或者更进⼀步,分享彼此所拥有的平台。
上海外国语大学分数线2.数据挖掘 for “actionable”insights discovery
数据挖掘有很多不同的名称,例如KDD(knowledge discovery in databa),或者BI(business int
elligence),预测建模(predictive model)等,但针对我们业务感受,我更愿意把数据挖掘定义为发现能够让品牌商产⽣真正落地⾏为的洞察或发现。以下举两个在项⽬中的⼩例⼦:
品牌商在社会化⽹络中的营销推⼴换个⾓度说就是找对的⼈讲对的话,于是我们的数据挖掘项⽬中⾸先会通过数据挖掘⼿段找到品牌潜在消费者,重要影响者,之后通过⼈群表达的语⾔地图描绘出兴趣图谱和品牌图谱,了解消费者是什么样的⼈,消费者眼中的品牌是怎么样的,之后在通过⼈群在社会化⽹络形成关系的数据挖掘呈现出消费者所在社区样式,谁会是⼀个关键的tipping point,这个社区⼜呈现什么样的特征。这样品牌商在拿到我们哪个是的数据内容后,⽴即可以根据⼈群洞察制定相应的营销内容策略,也知道在社会化⽹络中需要哪些消费者进⾏engage。
在电商的数据挖掘中,我们通过对消费者的表达研究了解消费者购买产品的关注重点是什么,影响产品满意度的重要因素是什么,其次我们会对消费者的线上购买⾏为数据进⾏研究,去看消费者购买除了买⾃⼰品牌的商品同时还会购买哪些竞品品牌。结合这表达和⾏为的洞察,再深⼊探究竞品的商品展⽰,宣传,品牌形象,等等各⽅⾯和本品之间的差异点。这样品牌商在电商运营中更能有⽅向性的去改进产品和消费者之间的沟通⽅式。
所以,数据挖掘是在⼀项探测⼤量数据以发现有意义的模式和规则的业务流程,我们关注的重点在于发现的知识是否有意义,是否actionable。正如沈浩⽼师说的:“这是⼀个令⼈兴奋的时代,也是⼀个⼤数据的时代,社交媒体让我们越来越多地从数据中观察到⼈类社会的复杂⾏为模
”
以数据为基础的技术决定着⼈类的未来,但并⾮是数据本⾝改变了我们的世界,起决定作⽤的是我们对可⽤知识的增加。”if i sing a song
式。以数据为基础的技术决定着⼈类的未来,但并⾮是数据本⾝改变了我们的世界,起决定作⽤的是我们对可⽤知识的增加。