国际知识发现和数据挖掘竞赛

更新时间:2022-11-16 00:00:35 阅读: 评论:0

概述

数据挖掘是一个较新的交叉学科,随着海量数据在各个行业的涌现,发挥了越来越大的推动作用,受到了广泛的关注。全球的华人学者在这一研究领域扮演着举足轻重的角色。国内也逐步孕育出了一支庞大的数据挖掘研究及开发队伍,并且在最近几年的KDD年会上有出色的表现。

组织者介绍

国际知识发现和数据挖掘竞赛ACM(Association for Computing Machinery )美国计算机协会是一个世界性的计算机专业组织,创立于1947年,是世界上影响力最强的科学性及教育性计算机组织。ACM每年都出版大量计算机科学的高水平专门期刊,并在各项计算机专业领域都有分会,称为SIG(Special Interest Group)。

ACM就像一个伞状的组织,为其所有的成员提供信息,包括最新的尖端科学的发展,从理论思想到应用的转换,提供交换信息的机会。正象ACM建立时的初衷,它仍一直保持着它的发展“信息技术”的目标,ACM成为一个永久的更新最新信息领域的源泉。ACM颁发“图灵奖”给计算机领域做出杰出贡献的人士。该奖项被称为计算机领域的诺贝尔奖。

KDD Cup的主办方是SIGKDD是ACM的数据挖掘分会,其全称为ACM Special Interest Group on Knowledge Discovery and Data Mining,SIGKDD是国际数据挖掘界最著名的组织,其中KDD(Knowledge Discovery and Data Mining,知识发现与数据挖掘)一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议(IJCAI)上,由Piatetsky Sharpiro正式提出;1989-1994年间美国人工智能协会共举办了4届KDD国际专题讨论会(89、91、93、94)。1995年,国际KDD组委把专题讨论会更名为国际会议,并在加拿大蒙特利尔召开了第1届KDD国际学术会议,以后每年召开一次。1998年,ACM成立了KDD特殊兴趣组SIGKDD,于1999年第五届开始组织KDD学术会议。由于KDD的学科交叉性和广泛应用性,吸引了来自统计、机器学习、数据库、互联网、生物信息学、多媒体、自然语言处理、人机交互、社交网络、高性能计算及大数据挖掘等众多领域的专家、学者,KDD Cup的参赛队伍、Conference的投稿量呈现逐年增加的趋势,其行业影响力也越来越大。

SIGKDD的现任主席为Usama Fayyad(2009-now),前任主席包括Gregory Piatetsky Shapiro(2005-2008)、Won Kim (1998-2004)

KDD Cup每届比赛会由企业或大学来进行协办,协办者通常会提供极有前沿应用价值的大规模数据作为挖掘样本。作为公认的数据处理领域内的最高水平的赛事之一,历年的竞赛所用数据往往被数据挖掘从业者用作研究和开发的良好训练数据。近几年KDD-Cup的协办单位包括:DonorsChoo(2014)、微软公司(2013)、腾讯公司(2012)、雅虎公司(2011)、卡耐基梅隆大学(2010)、法国电信公司(2009)、西门子医疗(2008)。

历年竞赛概览

2012届

Track1任务:社交网络中的个性化推荐系统

根据腾讯微博中的用户属性(Ur Profile)、SNS社交关系、在社交网络中的互动记录(retweet、comment、at)等,以及过去30天内的历史item推荐记录,来预测接下来最有可能被用户接受的推荐item列表

KDD Cup 2012年优胜者:

冠军:ACMClass@SJTU (上海交通大学ACM班)

亚军:Shanda Innovations (盛大创新院)

季军:SYSU_Wargreymon

Track2任务:搜索广告系统的pTCR点击率预估

提供用户在腾讯搜索的查询词(query)、展现的广告信息(包括广告标题、描述、url等),以及广告的相对位置(多条广告中的排名)和用户点击情况,以及广告主和用户的属性信息,来预测后续时间用户对广告的点击情况

KDD Cup 2012年Track2优胜者:

冠军:Catch Up (台湾大学)

亚军:Opera Solutions (Opera Inc.)

季军:Steffen Rendle

2011届

Track1任务:音乐评分预测

根据用户在雅虎音乐上item的历史评分记录,来预测用户对其他item(包括歌曲、专辑等)的评分和实际评分之间的差异RMSE(最小均方误差)。同时提供的还有歌曲所属的专辑、歌手、曲风等信息

KDD Cup 2011年Track1优胜者:

冠军:National Taiwan University (台湾大学)

亚军:Commendo (Commendo Inc.)

季军:InnerPeace (上海交通大学)

Track2任务:识别音乐是否被用户评分

每个用户提供6首候选的歌曲,其中3首为用户已评分数据,另3首是该用户未评分,但是出自用户中整体评分较高的歌曲。歌曲的属性信息(专辑、歌手、曲风等)也同样提供。参赛者给出二分分类结果(0/1分类),并根据整体准确率计算最终排名

KDD Cup 2011年Track2优胜者:

冠军:National Taiwan University (台湾大学)

亚军:The Art of Lemon (中国科学院)

季军:Commendo (Commendo Inc.)

2010届

根据智能教学辅导系统和学生之间的交互日志,来预测学生数学题的考试成绩。该任务兼具实践重要性和科学趣味性。竞赛提供3个开发(develop)数据集和2个挑战(challenge)数据集,每个数据集又分为训练(train)部分和测试(test)部分。Challenge数据集的test部分被隐藏,参赛者需要开发一种学习模型,来准确预测这部分隐藏部分的成绩

KDD Cup 2010年优胜者:

冠军:National Taiwan University (台湾大学)

亚军:Zhang and Su

季军:BigChaos@KDD (Commendo Inc. and ATu0026T Labs)

2009届

法国电信运营商Orange的大规模数据中,积累了大量客户的行为记录。竞赛者需要设计一个良好的客户关系管理系统(CRM),用快速、稳定的方法,预测客户三个维度的属性,包括:

1、忠诚度:用户切换运营商的可能性(Churn);

2、购买欲:购买新服务的可能性(Appetency);

3、增值性:客户升级或追加购买高利润产品的可能性(Up-lling)。

结果用AUC曲线来评估

KDD Cup 2009年优胜者:

Track1 (Fast Track):

冠军:IBM Rearch (IBM研究院)

亚军:ID Analytics Inc.

季军:Old dogs with new tricks (美国西北大学David Slate教授, Peter W. Frey教授)

Track2 (Slow Track)

冠军:University of Melbourne(墨尔本大学)

亚军:Financial Engineering Group, Inc. Japan

季军:National Taiwan University(台湾大学)

2008届

医学影像学的一个重要应用是乳腺癌的检测。每年全球有46.5万女性患者被乳腺癌夺走性命,但在1990年后通过引入X-射线进行检测,能够成功的在发病早期发现病兆并进行治疗,成功降低了30%的疾病死亡率。传统方式由放射学医生来进行X相片的检测,耗时耗力,而且为了提高检测的准确率,往往需要多位医生重复判读图像。

基于此背景,本届赛题分为两个Track,分别是设计计算机辅助检测系统(Computer-Aided Detection,CAD),来判读图像是否含有乳腺癌病兆;以及设计二分分类器(binary classification),来决定某样本是否需要医生来进行重复判读。

KDD Cup 2008年优胜者:

Track1:

冠军:IBM Rearch (IBM研究院)

亚军:National Taiwan University (台湾大学)

季军:Wayne State University (美国韦恩州立大学)

Track2:

冠军:IBM Rearch (IBM研究院)

亚军:TZ Team

季军:National Taiwan University

本文发布于:2022-11-16 00:00:35,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/78/489692.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图