第33卷 第4期 计算机辅助设计与图形学学报
Vol.33 No.4 2021年4月
Journal of Computer-Aided Design & Computer Graphics
Apr. 2021
收稿日期: 2020-11-24; 修回日期: 2021-02-18. 基金项目: 国家自然科学基金(61772315, 61861136012). 包琛(1995—), 女, 硕士研究生, 主要研究方向为信息可视化; 汪云海(1984—), 男, 博士, 教授, 博士生导师, 论文通讯作者, 主要研究方向为数据可视化、人机交互.
词云可视化综述
包琛, 汪云海*
(山东大学计算机科学与技术学院 青岛 266237) (***************)
摘 要: 词云是一种近年来颇为流行的文本可视化方式, 它提取出文本中的关键词并在二维空间上美观地排布, 通常用于展示文本内容、辅助文本分析以及吸引读者阅读等. 从视觉编码、布局方法和交互方式这
3个方面介绍词云的设计空间; 将现有的词云设计分为语义词云、形状词云、可编辑词云和多文档词云4类进行概括, 并总结了目前对于词云进行实验评价的若干工作; 最后分别从语义词云、形状词云、多文档词云和中文词云4个方面分析了词云可视化领域面临的挑战, 并对未来工作进行了展望.
关键词: 词云; 标签云; 文本可视化; 语义词云; 形状词云; 多文档文本; 文本分析 中图法分类号: TP391.41 DOI: 10.3724/SP.J.1089.2021.18811
A Survey of Word Cloud Visualization
Bao Chen and Wang Yunhai *
(School of Computer Science and Technology, Shandong University, Qingdao 266237)
Abstract: Word cloud is a popular text visualization technique that extracts keywords from text and displays them on the 2D space aesthetically. Word cloud is often ud to display contents, aid text analysis and attract readers. In this work, the design space of word cloud is introduced from three aspects: visual encoding, layout and interaction. Then current word cloud design rearches are summarized by four categories: mantic word clouds, shape-constrained word clouds, interactive word clouds and multi-document word clouds. Several works related to word cloud evaluation are als
o concluded. Finally, rearch challenges in mantic word clouds, shape-con-strained word clouds, multi-document word clouds and Chine word clouds, and suggest future work of word cloud visualization are discusd.
Key words: word cloud; tag cloud; text visualization; mantic word clouds; shape-constrained word clouds; multi-document text; text analysis
词云是一种对文本进行总结概括的可视化方法, 通过提取关键词在二维空间中排布, 词云以友好的方式向人们展示了文本的主要内容. 通常, 词云中的单词大小由单词在文本中的出现频率映射而来, 直观地表达单词的重要程度. 词云因其美学上的优越性以及其简洁易懂的特性广受人们喜爱, 尤其是在广告、新闻、教育和出版等行业中得到了非常广泛的应用. 例如, 在照片分享社区网站, 图片标签以词云的方式呈现, 起到了展示图片热度和网页导航的作用[1]; 新闻记者热衷于使用词云作为吸引读者注意力的头条图片, 内容包含新闻事件的对比和人物事迹的概括等[2]; 普通用户使用词云制作个人简历和邮件个性签名[3], 印制纪念品和海报; 在教育行业, 词云还可被用于概括课程现代化建设
第4期
包琛, 等: 词云可视化综述 533
主要内容或辅助科学研究教学[4].
随着近年词云被大量使用, 相关的研究和设计也逐渐丰富. 研究者在传统视觉编码和布局方法的基础上, 不断地试图增强词云的表达能力, 逐渐发展出多样的词云外观形式, 大大丰富了词云的内涵. 此外, 尽管已经有很多研究证明词云不能成为一个有效的数据分析工具, 鉴于词云的受欢迎程度, 许多可视化研究者开始从实验的角度试图评价词云设计的好坏, 探索词云的设计空间. 本文通过分类陈述的方式, 总结了词云自诞生以来在相关研究领域的发展和演变, 意在为词云研究者提供一个概括的了解, 同时启发设计者选择适合自己的词云展示方案.
本文首先对词云的基本特性和设计空间进行了介绍; 其次阐述4类词云可视化设计的特征和代表性成果; 然后概述当前词云实验评价的相关研究; 最后总结并探讨了词云未来可能的发展方向及面临的挑战. 鉴于目前网络上有层出不穷的词云自动生成工具, 本文将讨论的范围限制在目前已发表成文并且明确说明技术方法的词云研究工作之中. 文中会涉及少量商业化词云工具, 本文将仅描述其效果, 避免探讨背后的技术原理.
1 词云简介
1.1 词云的设计空间
词云又称为标签云, 早期用于展示文档或数据的标签. Rivadeneira 等[5]提出, 构建词云主要依
赖2种类型的特征: (1) 文本特征, 包括字体的粗细、大小、颜色; (2) 单词排布的特征, 包括排序、聚类、空间布局. 之后, Felix 等[6]将视觉编码和布局方法作为词云的2个最关键的可视参数, 其中, 视觉编码包括字体通道(颜色、大小等)以及附加符号通道(添加柱、圆等).
Bateman 等[7]将词云的可视变量划分得更详细, 考虑了英文字母中不同字母占用的像素数量不同、字母宽度不同等, 但实验证明这些因素并非影响人们对于词云感知的主要因素.
常德会战
随着词云的普及, 用户对词云定制化的需求逐渐增长, 出现了一些对已生成词云进行编辑交互的工作[8-10]. 参考前人的总结方式并结合当前词云的研究进展, 本文将词云的设计空间分为如图1所示视觉编码、布局方法与交互方式3个部分, 并依据目前已有的词云工作列出了常见的几种参数. 1.1.1 视觉编码
酸奶可以加热喝吗词云使用的主要视觉编码通道是文字本身, 其中用字体大小表示单词重要性(通常为词频)是最常见的编码方式. 除此之外, 也有一些工作使用颜色、透明度等作为词频的冗余编码(指对同一维度同时使用多个通道进行编码), 或者表示除词频外的其他信息. 例如, 在多文档词云中, 可以使用颜色区分从上一个时间步到当前时间步单词发生的变化[11], 或者使用透明度表示单词的逆文档频率(inver document frequency, IDF)值(即包含当前单词的文档数比例)[12].
图1 词云的设计空间
另外, 尽管研究人员尝试过为词云添加其他可视化图形, 但在不破坏词云美观性的前提下使用附加符号是比较困难的事情, 目前常见的往往是通过添加折线表示词频变化趋势. Collins 等[13]提出将平行坐标系和标签云结合的方式, 数据在时序上发生的变化是通过平行坐标系中的连线来
展示的. SparkClouds [14]给标签云中的每个单词添加迷你趋势线用以展示时序数据. 文献[15]将直方图与标签云结合起来, 以展示随时间变化的单词共现关系, 用户点击某个单词进行交互时, 系统会高亮显示与之共现的单词以及共现的时间段.臧克家有的人
文献[16]在尝试给标签云添加时序信息表达
534 计算机辅助设计与图形学学报第33卷
时, 考虑了上述的2个方面: 对于文字通道本身, 使用文字的亮度、大小、变形程度和透明度表现频率随时间的变化; 对于附加图形方面, 使用颜色背景展示标签发生的变化, 带颜色的线段展示标签频率随时间的变化, 带颜色的日历表和圆形图符展示重复出现或循环的数据规律. 该工作比较综合地展示了不同通道的效果, 给用户提供了多样的选择.
然而, 为词云添加过于复杂的视觉编码方式可能会损害词云自身易读性[16], 给人们带来认知上的额外负担. 因此, 设计词云时如果要采用非常见的编码通道或添加较复杂的可视化图形, 应该慎之又慎.
1.1.2 布局方法
词云至今已经发展出了多种多样的布局方法, 人们可以使用不同的排序与排布方法展示单词, 可以说, 布局是词云的核心. 早期比较常用的是水平竖直规则排布的行列式标签词云, 这个阶段较多使用字母表顺序对单词排序; 而经典的Wordle 算法[3]诞生并流行至今, 其排序方法往往和词频或其他计算单词重要性的表示方法有关; 此外, 力导向排布在语义词云中也有比较广泛的使用. 鉴于这一部分的重要性, 下面详细介绍这3种最常见的单词排布方法.
虎求百兽而食之文言文翻译(1) 行列排布. 又称为水平竖直排布, 就是将单词在画布上从左到右或从上到下对齐排列, 是一种常见的词云排布样式. 单词通常按照字母表顺序或按照它们的权重排序. Parallel tag clouds[13]和SparkClouds[14]是典型的行列排布单词的词云. 这种布局方法的优点是结构清晰, 一目了然, 有研究表明这种布局方式往往有利于人们完成大小判断和关键词检索等底层任务[6]. 另外, 也有语义词云的研究人员称这种布局方式能够帮助人们完成提取概括文章主题这种高层感知任务[17]. 这种排布方式被诟病之处是相对比较死板, 美观性较差. 与之相对的是空间排布方式, 主要有Wordle算法和力导向排布2种. 空间排布的单词不再追求对齐工整, 视觉上更具吸引力.
(2) Wordle算法. 是词云的一种经典排布, 它生成的词云自然、美观且紧凑, 如图2所示. Fei- berg[3]详细介绍了Wordle的起源、单词排布策略、碰撞检测及其效率优化方法和代码实现等. 算法核心就是将单词按照权重由大到小排序, 然后从画布中间开始按照顺序逐个摆放, 要摆放的单词需要与已放置的单词之间进行碰撞检测, 如果发现与已放置单词产生交叠, 要摆放的单词沿着阿基米德螺旋线的路径往外移动一步; 重复进行碰撞检测和移动, 直到没有交叠将单词放下为止; 重复以上过程直至摆放好所有单词. 这种贪婪算法尽管复杂度较高, 但是因为其生成结果的高度美观性, 目前非常流行. Feiberg[3]还讨论了Wordle算法面向不同用户和不同任务的优劣. 因为Wordle 网站①自诞生以来广受欢迎, 拥有成千上万的用户, Viegas等[2]收集了几年内人们使用Wordle算法进行的创作结果并发表了针对用户使用的调研[2]. 除了圆形螺旋线之外, 矩形螺旋线也是一种常见的变体. 此外, Wang等[18]提出一种改造传统螺旋线使其适应任意形状的方法, 进一步丰富了螺旋线布局的内涵.
图2 Wordle算法生成的布局[2]
(3) 力导向排布. 如果将单词看做图中的点, 并为点与点之间添加边, 就可以使用力导向模型对词云中的单词进行布局. 例如, 基于刚体动力学系统[19]的方法将每个单词看做一个有体积的刚体, 充分利用了力之间的吸引和排斥作用, 将单词之间的距离控制在合适大小的同时, 避免了单词之间的重叠. 这有利于保持词云紧凑且没有重叠的优良特性. 同时, 由于单词之间的距离可以自然联想到用语义上的距离来替代, 因此力导向排布在语义词云的分类下有着比较广泛的应用, 并且往往会和降维方法结合, 将单词在高维空间的语义关系呈现在二维空间. 然而, 这种布局方法也有其固有缺陷: 该方法有时无法达到预期
目标效果[20]; 使用力导向排布[21-22]不能保证结果一定会达到预期, 因为难以预测复杂的力相互作用的结果, 降低了词云生成方法的鲁棒性.
① www.wordle/
第4期包琛, 等: 词云可视化综述 535
1.1.3 交互方式
Wordle等在线生成词云的网站可以选择形状词云的外形轮廓, 在生成词云之前设定单词的朝向和词语颜色等. 这些创作工具均提供交互功能为自动一次性生成词云选定参数.
除了这种生成参数设定的情况, 用户可以对已经自动生成的词云中的单词进行再次修改. 用户可通过单击选择词云中的单个单词或框选多个单词进行编辑. 这样的编辑交互主要包括2类: 重绘类操作指的是改变单词的颜色和透明度等外观, 不会破坏整体布局; 重排类操作包括对单词的放缩、移动、删除和添加等编辑操作, 或者改变单词的字体等. 重排类操作可能会破坏布局原有的紧凑度和无重叠特性, 进而需要进行重新布局. 每次编辑操作后对未编辑的单词重新运行Wordle算法, 可以重新得到美观的布局, 但是这种方式破坏了操作前后单词的位置, 给用户对词云的控制造成了阻碍. 在保留原始的紧凑度和无重叠的情况下, 使用力导向布局可以实现保持前后一致性的编辑交互. 本文将在第2.3节重点介绍会引发重排的可编辑词云.
二人同行1.2词云分类
为了方便给设计师提供快速选择的参考, 本文从功能性的角度将词云分成了4大类: 语义词云将自然语言意义上的联系程度转化为二维空间上的展示距离, 意在增强词云的语义能力; 形状词云通过给词云轮廓增加形状限制, 大大提高了美观性, 并且从另一个角度增强了词云的表意能力; 可交互编辑的词云, 随着计算机和触屏设备的广泛使用也成为了一个重要的研究方向; 近年出现了针对多文档数据的词云, 针对时序的或相似文档类型的文本数据设计相应的词云方案, 大规模文档也可使用词云作为主要视图辅助文档的可视分析. 本文将各种类型的词云及其代表性工作[8-14,18-20,22-37]从视觉编码、布局方法和交互方式的角度进行如表1所示总结, 并且分类列出了本文中涉及的所有相关文献.
表1按功能对词云进行分类
视觉编码布局方法交互方式
词云类别代表文献
字体通道附加符号单词排序单词排布重绘与重排
其他相关工作文献[11] 大小、颜色线按语义聚类力导向无
文献[22] 大小无按语义聚类力导向无
保护环境倡议书
语义词云
文献[23] 大小无按相关度、按语义聚类力导向无
文献[24-26]
文献[27] 大小无按地理信息地理坐标无
文献[20] 大小无按词频力导向无
形状词云
文献[18] 大小无按词频 Wordle
重绘、重排
文献[28-29] 文献[8] 大小无按词频 Wordle
重绘、重排
文献[9] 大小无按词频 Wordle
重绘、重排
可编辑词云
文献[10] 大小无按词频 Wordle
重绘、重排文献[13] 大小线按字母表行列无
文献[14] 大小线按字母表行列无
文献[33] 大小流图按语义和按词频 Wordle
无文献[12] 大小、颜色、透明度无随机 Wordle
无
多文档词云
文献[37] 大小、颜色无按语义聚类力导向重排文献
[10-11,19,30-36]
2 词云的设计方法
2.1语义词云
语义词云的设计者更看重词云表意的功能, 于是将语义上更相关的单词排布得更加接近, 以期更好地表达词云包含的文本含义.
如图3所示, 保持上下文的动态词云(context prerving dynamic word cloud, CPD)[11]从时序文本数据中提取出单词聚类为簇, 并最终形成多帧的关联词云. 其提出了3种语义相关性的度量准则, 对应3种不同的单词的特征向量表示方式, 有针对性地生成不同风格的语义词云. CPD的基本方法是对于任意一对单词两两计算向量的余弦值, 余弦值越大, 证明2个单词的相似性越高, 由此创建相似度矩阵, 并使用多维标度法[38]将矩阵中包含的单词投影到二维平面, 以获取初始的按照语义聚类的单词位置布局. 后续在各个时间步单独的词云中, 通过在每个时间步构造图, 同时依据阿登反击战
536 计算机辅助设计与图形学学报第33卷
“无重叠、扁平化和紧凑”3个原则添加带限制的力导向模型, 对构建的图施加力的作用, 以获得较为紧凑的布局结果. CPD的作者认为, 将单词按照语义组织成簇增强了词云的可读性, 有利于用户理解并且跟踪文本内容.
图3 保持上下文的动态词云[11]
Wu等[22]认为, CPD构建的词云存在2个问题: (1) 最终的结果不稳定, 输入单词的少量变化可能会导致生成完全不同的最终布局; (2) 最终生成的结果可能有非常不规则的外形. 针对此, Wu等[22]提出了基于图片处理缝隙剪裁方法的词云(am carving word cloud, SC), 替换掉了CPD中的力导向模型, 使整体
布局紧凑. 原始缝隙裁剪算法首先使用一个能量函数确定布局中的低能量区域, 即空白缝隙, 然后从左到右或从上到下地裁剪空白. Wu等[22]针对词云的应用场景做了改进, 使用单词的外包围盒作为划分区域的单位, 在提高原算法效率的同时, 产生了更好的结果.
此外, 为了帮助人们比较相关文档, SC将结果生成的语义词云与气泡集合可视化相结合, 以增强语义联系的表达, 并最终用并列表格的展示方式辅助用户进行文档之间的比较. Wu等[22]将SC与CPD进行比较, 说明SC在保持外形方面有更好表现, 同时也更好地保持了语义联系. 同时, Wu等[22]也承认无论是SC还是CPD都更适合文档比较和分析, 在美观性和紧凑度方面劣于传统的Wordle算法.
ProjCloud[23]是一种用于展示多文档文本的语义词云, 如图4所示. 其为文档集合中的每篇文档构建一个词云, 并且使用降维投影的方法可视化相关文档之间的相似度关系. 由此, 文档位置体现了文档之间的相似程度; 将每个词云填充范围限定在一个自动划分或手动划分的多边形内, 并保持单词之间的语义关系. ProjCloud将形状限制和语义保持相结合, 以提高了词云的表现力; 同时将空间划分成了多边形区块, 具有较高的美观度. Paulovich等[23]特别提到, 尽管其使用了最小二乘投影将多文档向量投影到二维可视空间, 事实上, 在生成语义词云时, 其他降维方法也可能适用. 例如, 有的语义词云[24]使用t-SNE作为投影的方法, 也取得了比较不错的效果.
图4 ProjCloud[23]示例
ReCloud[25]用来展示用户评价(如餐厅点评), 构建辅助用户决策的语义词云. 其使用自然语言处理的技术生成语法依赖图, 以保存用户评价中关键词之间的语义, 之后同样使用了力导向的方法优化布局. Xu等[26]使用词向量表示单词, 并根据单词之间的语义相似性构建相关图.
总之, 当前语义词云的生成算法设计基本上都是通过将单词语义上的联系转化为二维平面的真实距离表现语义, 创新点主要集中在2个方面: (1) 衡量单词之间语义关联度的方式; (2) 将度量的关联度转化为二维空间坐标系内的位置的方法. 将高维的单词向量投影之后, 往往使用力导向的方法保证整体布局的紧凑性.
2.2形状词云
带有形状限制的词云不仅非常美观, 表意能力也比较强, 这是因为形状本身就带有对于文本内容的强烈暗示. 本节内容根据输入数据的不同分为2个部分: 首先介绍反映地理数据在地图上的分布的形状词云, 这类词云除了形状限制之外, 还包含根据地理信息摆放单词的要求, 如增加城市名称和城市地理坐标相对应的约束; 之后将探讨更一般情况下不包含地理信息的其他形状的词云.
2.2.1 地理形状词云
地理形状词云中的单词通常为地理名称, 其位置需要与坐标相对应. 地理词云(geographical word clouds, GWC)[27]是一种根据地理信息放置单词, 并且最终形成模拟地图上的地区形状的词云, 如图5所示. 算法的输入是分布在地理区域内点的二维坐标, 每个点都与一个或多个单词相关联.