信息聚合概念的构成与聚合模式研究
信息聚合概念的构成与聚合模式研究
0 引言
网络和数字化环境下,海量信息资源为用户带来丰富数据和信息的同时,也给用户带来了信息超载的难题。因此,信息组织和检索在解决海量网络信息开发利用的同时,还肩负着搭建从信息资源到用户多样化信息需求之间桥梁的重任。
然而,以往信息组织的研究和实践偏重信息资源的开发利用,而真实情境下用户的复杂信息需求在主流信息组织和检索模式中未得到充分的考虑和支持。例如,在当前典型的信息检索系统中,用户往往需要对来源分散的信息进行逐一检索和相关性判别,并对结果进行人工整合,才能解决一个具体的问题,这为时间紧迫的用户带来了负担[1]。因而,用户需要能帮助他们按照需求从多个分散来源中获取信息并以整合方式呈现的信息服务方式——信息聚合由此而生。
简言之,信息聚合是指根据用户的复杂信息需求,对来源分散的多类型信息资源进行采集、
筛选、组织、整合和呈现的信息组织与检索方式。聚合搜索 (Aggregated Search)的概念在信息
科学国际会议ACM SIGIR 2008中被提出时,就被认为是信息检索的新范式[2]与新趋势[3]。在国内,国家社会科学基金和国家自然科学基金立项支持的与“聚合”有关的项目至今累计达十余个。可见,信息聚合作为信息组织与检索研究的新问题正得到包括图书情报学在内的诸多领域的关注。适时厘清信息聚合的内涵与概念构成,明晰其发展历史和已有基础,进而对现有的聚合理论研究与实践模式进行梳理,可为聚合研究提供理论基础和发展的路向。
1 信息聚合概念的构成
《牛津现代英汉双解字典》中,“聚合”一词与英文“Aggregation”对应,是指异类成分组成的集合,或由很多细小单元组成的集合组成一个整体 [4]。杜晖指出,聚合的概念来源于化学领域,是描述高分子化学领域中单体小分子通过相互连接成为新的高分子化合物的专用术语[5]。可见,信息组织领域中的聚合概念应具有多来源信息单元的融合和重组的含义,指多源信息单元的聚合,包含聚合对象粒度这一要素。
北卡罗来纳大学信息与图书馆学院信息检索领域的研究人员Arguello等提出了内容聚合的概念,认为内容聚合是指特定情境下围绕核心内容(Core Content)和垂直内容(Vertical
Content)进行信息筛选、组织、排序与呈现的任务与方法[6]。与前述的聚合对象粒度这一要素相比,内容聚合的概念关注的多源异构的信息“内容”实际上与“聚合对象”对应,同时还增加了“情景”要素。情景是由宏观社会环境下的信息组织和检索环境以及用户需求共同决定的。作为聚合对象的信息内容的粒度,主要根据宏观社会环境下用户的复杂信息需求而定,同时还受到来源信息粒度及信息组织和检索系统性能的影响。情景和聚合对象两个要素之间衍生出第三要素,即涵盖聚合对象与用户之间关系以及聚合对象之间关系的“关系”要素。因而,信息组织领域中的信息聚合可视为面向用户需求的、基于多维聚合关系的、多来源、多粒度信息对象的筛选、组织、排序与呈现,包括聚合情景、聚合对象粒度、聚合对象之间关系及用户和聚合对象之间关系这三大构成。
与信息聚合相近的概念还有信息整合、信息联合(Syndication)、信息融合和信息集成等。此外,网络聚合搜索通常被等同于统一搜索(Unified Search)、混合垂直搜索(Blended Vertical Search)或通用搜索(Universal Search)[3]等概念。正如本文开篇所提到的,信息聚
合与这些概念的区别在于,这些概念主要从信息资源开发利用的角度提出,忽略了聚合所关注的“情景”要素以及由情景要素所带来的聚合对象、聚合对象之间关系和聚合对象与用户之间关系的差异。
可见,信息聚合是在当前搜索系统并未满足用户复杂多样的信息需求的情况下,以“情景”因素的融入为主要特征,在相应技术和理论基础上发展而来的信息组织与搜索模式的革新。内容聚合的概念可包括情景、聚合对象和关系三大要素,其中情景决定聚合的领域、目标、资源特征、用户特征、工具和方法,是聚合模式的决定因素;信息是聚合控制的基本对象,面向信息融合和知识发现的各种应用是聚合结果;关系是聚合的基本依据,包括情景、聚合对象和用户三者本身蕴含的关系以及三者之间的关系。
2 聚合模式分析方法
虽然近年来信息聚合问题成为信息组织与检索研究的新热点,但Arguello认为内容聚合的现象可追溯到更传统的表现形式,如:报纸可视为最早的“聚合媒体”,数字环境下聚合系统则表现为内容过滤系统,万维网初期更多呈现为主题导航式的手工的内容聚合、网络内容的自动聚合和新闻推荐等形式。当前技术环境下,内容聚合者则采用复合的、实时的、
基于地理空间信号、语义分析和社会信息分析的方式进行[6]。国内对于信息聚合的研究也涵盖了馆藏资源聚合和网络资源聚合等方面,如,伍革新和程秀峰提出数字图书馆语义检索从功能上可以划分为面
向服务的聚合与检索、面向用户的聚合与检索、面向知识推理与知识创新的聚合与检索[7]。可见,信息聚合具有多样化的应用领域和应用模式,加上学界对于信息聚合概念的认识和聚合类型划分尚不一致,当前与聚合模式相关的研究和实践是多样而又分散的。
本研究以信息聚合的概念构成为基础,对当前国内外关于信息聚合的典型应用和研究前沿进行梳理,归纳出聚合的主要模式。为获取国内外图情领域关于信息聚合研究与实践的信息,本研究搜集并整理了以下项目和资料:全球iSchool图书情报学院的教师科研项目、 2009~2013年间图书情报领域的国际会议论文、2009~2013年间图情领域的五种国际期刊的论文(Journal of the American Society for Information Science and Technology,Journal of Documentation,Journal of Information Science,Information Processing and Management,Scientometrics)、我国国家自然科学基金和国家社会科学基金资助项目论文和CNKI中的学位论文,并以此为线索进行扩展。在此范围内,选取资料完整的、有代表性的研究和实践案例进行分析,对聚合模式进行归纳和梳理。
通过分析发现,这些项目和研究中包含的聚合模式主要是以情景、对象、关系中的一种或几种为依据进行的信息聚合,涵盖
特定情境下多类型信息资源的采集、抽取、组织、分析、应用等多个方面的内容。围绕这些特征,我们提出本研究模式分析的思路,即:以信息聚合的主要构成要素为模式分析的立足点,围绕情景、关系和聚合对象粒度三种主要的聚合依据,按照其研究和实践的侧重点不同,划分为情景聚合、语义聚合、引用聚合、社会网络聚合和粒度聚合五种主要模式。以此为框架,以聚合情景分析为基础,以聚合机制解释和聚合应用介绍为主要内容,对现阶段信息聚合研究和实践的基本模式及其具体表现形式进行梳理,具体如图1所示。这三种聚合模式并非相互排斥、独立存在,而是互相包容和渗透。值得注意的是,以下各模式下所讨论的研究和实践例子除了具备该模式的显著特征外,也可能同时具有其他模式的特征和要素,甚至是其中几种模式的复合体。
图1 基于信息聚合概念构成的聚合模式与表现形式
3 信息聚合的主要模式与表现
3.1 基于情景的聚合
情景是指领域、用户、时间、地点等可影响聚合目标、聚合
对象特征、聚合方法和工具的应用的社会环境因素。情景聚合模式即基于应用目标、用户需求、行为或时间地点等客观情景因素进行的信息对象的采选、整合与动态呈现。该模式可分为基于情景感知的事件信息聚合、基于实时信息的新闻或消息聚合和基于个性化用户模型的聚合三种表现形式。
3.1.1 基于情景感知的事件信息聚合
大数据环境下,科研、商业、政府管理、军事和社会生活中使用的各类传感器产生的多媒体信息是海量信息的主要组成之一。基于情景感知的事件信息聚合模式是指通过对来自多个传感器的实时、海量的多媒体信息进行事件情景识别、事件相关信息或数据抽取和事件整合的聚合模式。基于大规模多媒体传感器的应用系统被称为情景感知的应用[8]。
相关研究和实践包括:Ramachandran以视频监控为例构建情景感知的应用模型,在监测器识别和异常事件触发的基础上,通过多传感器和追踪器进行事件信息(如:位置等)的持续聚合和联合追踪,形成面向实际应用的相关知识[8]。Gao等构建了一个情景信息监测的
系统,通过异构信息流聚合方法提供个性化信息和行动提醒。该系统通过统一的数据模型聚合异构网络数据流,并监测个人或整合数据流的时间和空间特性,从而对复杂情