龙源期刊网
移动视觉搜索技术研究进展及其在数字人文
领域应用实践
作者:余婷婷
来源:《创新科技》2017年第05期
[摘要]随着云计算、移动智能终端等信息技术飞速发展,视觉搜索开始从PC端走向移动
终端,自移动视觉搜索(MobileVisualSearch,MVS)提出以来,已成为信息检索领域重要研
究课题。目前MVS研究主要集中于基本架构、视觉对象处理、视觉对象检索等关键技术;在
数字人文领域,MVS主要应用于展品导览,实现精准定位,提升阅读体验等;标准化问题、
用户体验及视觉对象数据库构建则是其未来重点发展方向。
[关键词]移动视觉搜索;数字人文
[分类号]G250[文献标识码]A[文章编号]1671-0037(2017)5-43-4
Abstract:Withtherapiddevelopmentofinformationtechnologies,suchascloudcomputing
andmobileintelligent,Visual
Search(MVS)hasbecomeanimportantrearchtopicinthefieldofinformationretrievalsinceit
ent,MVSrearchmainlyfocusonthekeytechnologiessuchasbasic
architecture,visualobjectprocessingandvisualobjectretrieval;inthefieldofdigital
humanities,MVSismainlyudinexhibition,achievingprecipositioning,enhancingreading
experienceandsoon;standardization,urexperienceandtheconstructionofvisualobject
databaswillbethekeydirectionsforfuturedevelopment.
Keywords:MobileVisualSearch;digitalhumanities
MVS是基于移动搜索发展起来的,早在2002年英国就已出现“手机搜索音乐”。虽然目前
国内外对MVS的研究尚处于初级阶段,但近几年随着增强现实技术(AugmentedReality,
AR)、跨媒体检索技术(Cross-MediaRetrieval)等技术的发展,学术界对其日益关注。目前
MVS的研究仍以理论研究为主、应用研究为辅,但是随着移动搜索、图像检索、移动增强现
实等技术不断发展与完善,与之相融合的MVS必将成为继搜索引擎之后互联网新一代革命性
服务模式[1]。
本文以“mobilevisualarch*”“移动视觉搜索”、MVS为主题词在SCIE、Ei、Scopus、
PQDT、中国知网、万方、维普等数据库中检索,并通过引文追溯的方法来进一步补充相关文
献,通过文献调研的方法,来揭示目前国内外移动视觉搜索技术研究进展,为我国移动视觉搜
索研究提供参考。
龙源期刊网
1移动视觉搜索技术研究进展
目前移动视觉搜索技术研究主要集于基本架构、视觉对象处理、视觉对象检索等关键技
术。
1.1移动视觉搜索基本架构
MVS基本架构有三种形式:标准架构、本地化架构和混合架构[2]。三种基本架构各有优
缺点,系统功能、应用领域不同,效果也不尽一样,详见表1。
1.2视觉对象处理
视觉对象处理是移动视觉搜索的基本问题,主要包括视觉对象描述和提取、描述子压缩。
根据提取特征的广度不同,视觉对象特征可分为局部特征、全局特征及随机特征三类。
Tuytelaars等人[3]对三种特征描述子进行了对比分析:全局特征描述子能够表现图像的整体特
征,但其计算量大且无法从复杂的背景中区分目标;随机特征描述子在不同的位置和尺度上采
用不同的部分图像特征,能够很好的区分目标,但是,计算量庞大效率较低;局部特征描述子
选取局部信息来构造图像特征,受图像变换影响小,识别准确,可在复杂背景中完成目标识
别,虽然数字建模相对困难,但是,因为其高效的识别率是目前移动视觉搜索中视觉对象提取
和描述的主要方法。在众多的局部特征描述子中,应用最广泛的是尺度不变描述子(Scale
InvariantFeatureTransform,SIFT)。
视觉对象压缩主要有基于图像层面和基于局部特征的。基于图像层面的视觉对象压缩方法
有两类:局部描述符聚合[4]以及词汇编码直方图压缩[5]。基于局部特征描述子压缩主要采取
降维法,常用的有PCA-SIFT(PrincipalComponentAnalysisSIFT)[6];SIFT-LDA(SIFT
LinearDiscriminantAnalysis)[7];LLE-SIFT(LocallylinearembeddingSIFT)[8]。
1.3视觉对象检索
为了统一视觉搜索流程,共享研究成果,斯坦福大学、美国高通公司等多家研究机构参与
制定了MPEGCompactDescriptorforVisualSearch(MPEGCDVS)国际标准,并于2015年在
MPEG国际标准会议发布了最新的图像匹配流程和检索流程,主要包括视觉搜索架构、视觉搜
索流程两项[9]。针对视觉对象检索,国内外学者目前主要集中在两方面:优化视觉搜索性能
和大规模图像信息检索。LiDawei提出一种高效的移动视觉搜索系统(EMOVIS),该系统使
用两个独特的关键点识别方案来提高检索精度[10];KeGao针对大规模移动视觉检索,提供一
种离线查询扩展,提取多个具有代表性的特征,来支持快速准确的特征匹配[11]。
2移动视觉搜索在数字人文领域应用实践
龙源期刊网
移动视觉搜索目前在国外很多领域已经有了很好的应用,具有代表性的是Google公司于
2009年开发的GoogleGoggles服务,该服务可以将手机拍摄到的图片在Google里搜寻,可以
搜索书、商品、建筑、景点等[12]。
数字人文指将计算机处理和分析技术应用到传统人文研究中去,对其进行更全面、生动的
展示,将人文科学方法论与计算机技术相结合起来[13]。将MVS应用到数字人文领域是近几
年随着图书情报学科在MVS研究的深入而出现的,目前主要应用的地方有图书馆、档案馆、
博物馆等,MVS在数字人文领域的应用主要有以下几个方面:
2.1提供展品导览
展品导览一般用于博物馆、档案馆及提供展览功能的图书馆,随着信息化不断发展,互联
网+也将成为这些馆舍的发展方向,传统的展品展示一般是以明牌解说的形式,内容方法单
一,将MVS应用到展品导览中,不仅能提供能展品的文字介绍,还能够提供多媒体信息,为
参观者带来更加生动的互动体验。国外在这方面的探索,主要有ErichBruns等人提出的名为
PhoneGuide的博物馆导览系统,该系统利用手机进行对展品进行拍摄,来提供对象的文本、
视频、音频等多媒体信息[14],在2010,2012年,ErichBruns又利用多图像分类技术(multi-
imageclassificationtechnique)对其进行改进,提高其自适应性[15][16]。钟志鹏提出一种基于
移动视觉搜索的博物馆导览系统,该系统基于移动视觉搜索和GPS定位技术,为用户提供语
音解说、文字图片甚至是音频、视频等多媒体信息[17]。
2.2实现精准定位
精准定位一般应用于图书查找,现代图书馆为了更好的满足读者的需求,馆舍体量越来越
大,实现大开架布局,推行“藏、查、借、阅、参”一体化服务,相应的功能布局较为分散,对
图书馆不熟悉的读者来说,仅凭索书号来找书是一个很繁琐的过程。将移动视觉搜索技术应用
到图书馆,读者可以通过手机拍摄图书相关信息,获得相关的图书的地理位置和导航,不仅会
大大缩减读者找书时间而且提高了找寻的精度。国外这方面的应用研究较多,迈阿密大学的
BoBrinkman等人设计了名为ShelvAR的排架系统,来实现图书的快速精准定位[18];印度的
PradeepSiddappa设计了librARi应用程序,可以直接拍照来搜索图书的物理空间,并通过对书
架进行拍摄来找出相关书籍在书架上的位置[19]。
2.3提升阅读体验
将移动视觉搜索技术与阅读相结合,用户面对的将不再是文字本身枯燥的内容,还可以获
取图书的评价、与该图书内容相关的音频视频,更甚者,可以获得与之相关的三维立体形象,
让用户体会到交互式阅读的乐趣。JISC-fundeddatacentreattheUniversityofManchester和John
RylandsLibrary开展的SCARLET项目,利用MVS技术拍摄古籍时,屏幕上就会显示古籍的
文字图片等信息,用户还可以对图片进行翻页操作、收听相关的音频资料等,突破了传统阅读
习惯,大大提高了古籍的利用率和用户的使用体验[20]。
龙源期刊网
3移动视觉搜索未来发展方向
随着移动智能终端、云计算等的高速发展,移动视觉搜索必将在技术发展的基础上,以满
足用户互动性、个性化需求为驱动,形成新的服务模式,未来MVS有以下几个研究重点。
3.1移动视觉搜索标准化问题
随着MVS的高速发展,移动视觉搜索面临的对象数据、工具、系统等方面的标准统一问
题,特别是多样化的视觉搜索需要解决的系统互操作性挑战,为了推进这一标准的建立,世界
各国的科研机构和公司进行了相关研究,北京大学的数字视频编解码技术国家工程实验室,美
国的斯坦福大学、意大利电信集团等都参与了MPEGCDVS视觉搜索国际标准的指定,并已
经取得了初步成就,发布了一系列包括视觉描述紧凑子提取、视觉检索流程等国际标准。
3.2关注用户体验
由于移动终端的高速发展,用户获取视觉对象更加便捷,因此,需要及时获取用户的需
求,从而满足不同用户的信息服务需求,目前移动视觉搜索的研究学科多集中于工程学科,但
随着技术的发展,基于用户需求的应用也将是MVS的重要发展方向,北京大学的SangJ关注
用户体验,理解用户意图,提出了一种基于交互的MVS原型,帮助用户制定自己的视觉意
图,来提高用户体验[21]。
3.3视觉对象数据库构建
视觉对象库的构建是移动视觉搜索的重要方面,相对于视觉检索构建的图像数据库,视觉
对象数据库很明显不仅包括与之相似的强大的图像库,还必须包括与图片的一系列相关信息,
但是,目前针对此方面的研究相对较少,且大部分研究均集中于图像数据库的构建,关联信息
研究则是更少。不过,随着互联网科技的发展,相关课题也正进入人们的视线,北京大学和南
洋理工大学则是共建ROSE项目,拟建设成亚洲最大的视觉对象数据库,从包括淘宝、
google、flickr、amazon上获取网页、图片、视频数据,通过对这些数据信息的分析,来构建
objectDataba,该项目将集成在包括电子商务、旅游、生活方式爱好等3个领域[22]。
4结语
MVS技术使得图书馆、博物馆、档案馆与用户之间有了一种全新的、生动的、互动式的
沟通方式,其技术应用的研究必将对数字人文领域未来的生存与发展产生深远的影响,在学术
界、产业界的共同努力下,协同增强现实、跨媒体检索等技术的共同发展,移动视觉搜索必将
成为Web3.0时代下互联网革命性服务模式。
参考文献:
[1]张兴旺,黄晓斌.国外移动视觉搜索研究述评[J].中国图书馆学报,2014(3):114-128.
龙源期刊网
[2]GirodB,ChandrakharV,GrzeszczukR,VisualSearch:
Architectures,Technologies,andtheEmergingMPEGStandard[J]。MultimediaIEEE,2011
(3):86-94.
[3]TuytelaarsT,nvariantfeaturedetectors:asurvey[J].Foundations
andTrendsinComputerGraphicsandVision,2007(3):177-280.
[4]JégouH,DouzeM,SchmidC,atinglocaldescriptorsintoacompactimage
reprentation[C].IEEEConferenceonComputerVision&mputer
Society,2010:3304-3311.
[5]ChenD,TsaiS,HsuCH,augmentedrealityforbooksona
shelf[C]//MultimediaandExpo(ICME),,2011:
1-6.
[6]ZhangY,chonwidebalinestereomatchingbadonPCA-SIFT[C]//
AdvancedComputerTheoryandEngineering(ICACTE),20103rdInternationalConferenceon.
IEEE,2010:V5-137-V5-140.
[7]丁湘楠,谢正忠,宋晓宁.基于LDA的SIFT算法在图像配准中的应用[J].电子设计工
程,2013(11):186-189.
[8]YeJ,ShiS,ecognitionalgorithmbadonLLE-SIFTfeature
descriptors[C].ComputerScience&Education(ICCSE),201510thInternationalConferenceon.
IEEE,2015.
[9]del13:Compactdescriptorforvisualarch[S].N15129,ISO/IEC
JTC1/SC29/WG11,Geneva,Switzerland,Feb.2015.
[10]LiD,:AnEfficientMobileVisualSearchSystemforLandmark
Recognition[C]//MobileAd-hocandSensorNetworks(MSN),2013IEEENinthInternational
,2013:53-60.
[11]GaoK,ZhangY,ZhangD,teoff-linequeryexpansionforlarge-scale
mobilevisualarch[J].SignalProcessing,2013(8):2305-2315.
[12]Goggles[EB/OL].https:///wiki/Google_Goggles.2016-
07-02.
龙源期刊网
[13]mphlettopixel:thehumanitiesintransition[EB/OL].http:
///rearch/discussion/from-pamphlet-to-pixel-the-humanities-in-transition.2017-07-
10.
[14]BrunsE,BrombachB,ZeidlerT,ngmobilephonestosupportlarge-scale
muumguidance[J].IEEEmultimedia,2007(2).
[15]BrunsE,muumguidanceusingrelationalmulti-image
classification[C]//MultimediaandUbiquitousEngineering(MUE),20104thInternational
,2010:1-8.
[16]BrunsE,zationandclassificationthroughadaptivepathway
analysis[J].IEEEPervasiveComputing,2012(2):74-81.
[17]钟志鹏,王涌天,陈靖,等.一个基于移动视觉搜索技术的博物馆导览系统[J].计算机
辅助设计与图形学学报,2012(4):555-562。
[18]BrinkmanB,elibrary:Apilotstudyofmulti-targetacquisition
usability[C]//MixedandAugmentedReality(ISMAR),2013IEEEInternationalSymposiumon.
IEEE,2013:241-242.
[19]i-Augmentedrealityexperienceforlibrary[EB/OL].http:
///gallery/20711093/librARi-Augmented-Reality-Experience-for-Library.2016-07-
25.
[20]RLETProject:MarryingAugmentedRealityandSpecial
Collections[EB/OL].https:///blog/2012/06/the-scarlet-project-marrying-augmented-
reality-and-special-collections/.2017-07-10.
[21]SangJ,MeiT,XuYQ,ctionDesignforMobileVisualSearch[J].IEEE
TransactionsonMultimedia,2013(7):1665-1676.
[22]uredObjectDataba[EB/OL].http:
///rearch/Structured%20Object%20Databa/Pages/.2016-06-25.
本文发布于:2023-03-06 20:39:03,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1678106344127772.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:移动搜索.doc
本文 PDF 下载地址:移动搜索.pdf
留言与评论(共有 0 条评论) |