ARCHIVES&CONSTRUCTION
档案
建设与2018.6
[摘要]读图时代,照片档案的重要性和需求度日益提升。然而,传统的照片档
案检索方式已无法满足用户对信息的获取需求,也给照片档案管理带来了不便。论
文试图将“以图搜图”技术引入照片档案管理中,从管理系统框架、收集模块、整理模
块、查询模块几方面阐述其优越性。论文分析了应用过程中可能出现的难点,并提出
了相应的解决办法。
[关键词]图像识别照片档案档案检索系统
[分类号]G271
RearchonApplicationofSimilarImageSearchTechnologyin
ManagementofPhotosArchives
JiangYuanyuan
(ArchivesofSoutheastUniversity,Nanjing,Jiangsu,211189)
Abstract:Ineraofreadingpictures,theimportanceanddemandofphotoarchivesisbecoming
r,thetraditionalmethodofphotoarchivesretrievalcouldnotmeetthe
ur'sdemandofinformationacquisition,andbringsinconveniencetothemanagementofphoto
ticleexploresintroducing“SimilarImageSearch”intophotoarchivesmanagement,
andexpoundsthesuperiorityfromtheaspectsofmanagementsystemframework,collectionmodule,
y,itanalyzesthedifficultiesthatmayariinthe
applicationprocess,andthenproposcorrespondingsolutions.
Keywords:ImageRecognition;PhotoArchives;ArchiveRetrievalSystem
江媛媛
(东南大学档案馆,江苏南京,211189)
“以图搜图”技术在照片档案管理中的应用研究*
随着“眼球经济”的兴起,图像
因其能够以最少的阅读时
间提供最大信息量,成为信息传
播和获取的主要方式。与文字相
比,图像直观、形象,视觉冲击力
大,内容吸引力强,可以突破语言
的障碍,打破种种隔阂。以图像
方式传播信息,内容简洁明了,易
于被理解和接受,阅读轻松快速,
更能满足现代人快节奏生活的需
求。“影像档案”是声像档案对“读
图时代”适应后的产物:报纸、杂
志、电影、电视、录像、网络中各式
图片铺天盖地呈现在人们眼前,
读图已经成为时代的一种风尚[1]。
照片是档案的一种重要记录形
式。新型照片档案依赖数码技术与
计算机技术而形成,属于电子档案,
其形成、传输、存储和利用都离不开
计算机等现代化技术和设备。照片
档案比文字档案更生动、丰富,历史
凭证作用更为明显。“影像档案”为
书写史学提供“一个鲜活的影像注
脚”,提供了另一种记录和表述历史
的方式[2]。
用户需求催生新技术和新产
品,面对多媒体信息的急剧增加,信
息可视化的发展,使用文本搜索获
取照片档案的方式已不能满足用户
的需求,引用“以图搜图”新型的照
片检索技术显得日趋重要。
1“以图搜图”应用于照片档案
管理的必要性
1.1“以图搜图”技术简介
“以图搜图”也称相似图片搜索
引擎,是以用户提供的图像为基础,
搜索与之相似或相关的图像等信
息。其原理与文本搜索相似,通过
为网上的图片信息建立索引,使搜
索引擎能够识别这些索引,然后将
能够代表图片信息的索引组建成一
个数据库。在给定查询图像的前提
下,无需人工对图像进行注释,依据
图像本身包含的像素信息、颜色、纹
理、形状、空间关系等客观视觉特
征,在图像数据库中搜索并查找出
符合查询条件的相应图像[3]。
目前,“以图搜图”技术在电子
商务领域得到了广泛应用,各大电
商及搜索引擎网站都在进行着相应
的开发,如谷歌、微软、百度、淘宝
等。用户购买目标商品时,可使用
图片搜索功能对比同款产品的市场
价格,也能找到更多相似款,充分享
用电子商务带来的便捷体验。
“以图搜图”作为图像搜索引擎
的扩展,是当前多媒体领域的一个
重要研究方向,被认为是未来互联
网图片信息查寻创新应用的一种发
展趋势。
1.2数字时代照片档案管理存
业务研究
ProfessionRearch栏目主持:古琬莹
38
ARCHIVES&CONSTRUCTION
档案
建设与2018.6
在的问题
随着数码照片档案的替代性
普及以及纸质照片档案数字化的
推进,电子照片已经逐步取代纸
质照片,成为馆藏照片档案的主
体。海量、多渠道的照片扩充了
档案馆馆藏资源的同时,也给照
片档案的编目、利用等带来了困
扰。目前照片档案管理普遍存在
一些问题。
(1)照片档案六要素模糊。
照片档案的来源是相关业务部
门,而这些部门普遍对照片信息
描述不重视,照片常以数码相机
默认名保存,未进行规范化整理
与著录。且照片归档到档案馆的
过程中,往往经手人较多,摄影者
不是照片的归档者,归档者也不
清楚照片的详细内容。多数照片
未整理或者是被简单标注后即被
交予档案馆。因此,档案馆员在
整理著录时,很难保证照片档案
的时间、地点、人物、事由、背景、
摄影者六要素的完整与准确。
(2)照片档案内容孤岛。目
前,照片档案的架构偏重于大量
存储、长期保存、快速存取、数据
安全及数据库稳定等方面,对其
内容关联的关注较少。档案馆员
面对数量激增的数码照片,仅实
施较完善的编目就很困难,已没
有精力再研究照片间的内容联
系,管理系统也不具备查重能力,
每份照片档案孤立存放,产生了
内容孤岛。对于归档的照片,几
乎“照单全收”,没有和馆藏照片
档案做对比,出现了重复归档的
情况,加重了档案馆以及管理人
员的负担。
(3)查询利用有局限。目前,
照片档案的主要检索方式是文本
检索。用户可通过档号、题名、关
键词、归档单位等字段组合检索,
查找目标照片。然而,声像档案
是非结构化的数据,无法采用数据
库操作数据的方式进行管理,因此,
基于关键词检索方法进行声像档案
检索效果不理想。声像档案所包含
的信息进行语义识别和划分往往是
主观的,因为它不能像文本数据一
样,使用词法分析等较成熟的方法
进行准确的划分和识别[4]。同时,
由于部分照片档案本身六要素著录
不完备,也影响了查询结果的查全
率与查准率。
设想将“以图搜图”技术应用到
照片档案管理中:若想找出与某个
场景类似的照片,只需将此场景的
照片作为“检索词”输入,系统将用
户输入的内容与档案库中的内容逐
一比较,输出检索结果。理论上,此
种方式不会存在由于标注不准确而
造成检索结果丢失或错误,势必可
以大大地缓解馆员负担,便于发现
照片档案间的关联与网络组织,有
助于利用好重复的信息资源。
2基于“以图搜图”技术的照片
档案管理系统
照片档案管理系统由检索、管
理、用户、权限等模块构成。“以图搜
图”的照片档案管理系统突出检索
功能,故在现有系统的基础上,嵌入
“以图搜图”搜索模块,建立图片特
征索引和多重维度的检索入口,将
检索功能贯穿照片档案从收集鉴定
到查询利用整个管理流程,使得照
片档案管理更加智能化、便捷化。
检索系统有两件重要工作:一
是“翻译”用户的需求,让系统理解
用户的目的;二是进行检索并输出
所需信息。“以图搜图”照片档案检
索系统的框架如下:(1)将馆藏量巨
大的电子照片档案资源集合,形成
图像集,并分析图像的内容信息,提
取图像的颜色特征、空间关系特征、
纹理特征等,形成特征库。对于有
人物的图片,采用人脸识别技术进
行人脸识别切分,并对识别出来的
人物做标注。(2)根据提供的示例图
像,分析图像信息,得到图像相应特
征。(3)对图像特征的相似度进行匹
配,最终将匹配结果返回给用户。
如图1所示[5]。
2.1收集模块——网络归档,初
次鉴定
在档案的收集阶段,兼职档案
员不必再通过物理方式拷贝归档,
只需登录系统,将归档的照片上传
至档案馆服务器即可。利用“以图
搜图”的照片档案管理系统可迅速
了解照片档案的主题内容与元数据
信息。通过照片属性中的时间、地
点、相机型号等信息,结合照片主题
内容多维度地筛选归类,辅助兼职
档案员快速挑选需要归档的照片,
批量上传。在上传的同时,对照片
档案进行初次鉴定,剔除重复、清晰
度不高、内容表达不清晰的照片,选
择高质量与代表性的照片归档,有
效地提高了归档效率和质量。
2.2整理模块——智能著录,择
优发布
档案馆员在收到上传归档的照
片档案后,即可对其进行整理编
目。系统支持相似率的选择,可快
速从照片档案数据库里找到与归档
相同或相似的照片,还可利用人脸
识别技术对有人物的照片进行识别
及标注。对已识别或标注信息的照
片,可以把识别的图像内容及标注
内容关联,满足图像与文字的双重
检索需求,同时将新增的相同或相
似内容的照片自动关联。“以图搜
图”的照片档案管理系统能够辅助
明确照片档案的六要素,档案馆员
在整理著录照片档案时,只需要对
系统智能著录的条目进行审核,确
认后即可编目,正式归入档案数据
库,同时可根据推荐,选择非涉密的
优秀照片档案对外发布。
2.3查询模块——支持“以图搜
业务研究
ProfessionRearch栏目主持:古琬莹
39
ARCHIVES&CONSTRUCTION
档案
建设与2018.6
图”功能,多种检索途径结合
查询模块是照片档案使用效
率和质量保证的核心所在。当用
户登录系统,进入检索界面后,可
以看到文本检索与图像检索等多
种检索界面。如用户想获取“六
朝松”的相关照片,可以将“六朝
松”作为关键词,通过文本方式进
行检索。但是这种方式检索到的
结果较多,比如“XXX在六朝松下
留影”也会作为检索结果显示出
来。在本系统中,用户可以用一
幅“六朝松”的图像作为检索词,
系统将用户所选图像与馆藏照片
档案特征库进行相似度匹配,按
照相似度高低排序返回检索结
果。用户可根据自身需求,选择
适当的查询方式,也可多种检索
途径组合查询,以获取所需要的
照片档案信息。
3存在的难点及解决方案
“以图搜图”检索起步不久,在
档案管理领域更是鲜有涉及,因
此,“以图搜图”技术在照片档案管
理应用中难免会遇到一些难题。
3.1存在的难点
(1)照片档案真实性难以判
别
影像材料拷贝件的法律地位
(缩微品除外)一直处于争议之中,
在档案界,声像档案的易复制性给
声像档案鉴定带来了难度[6]。《数码
照片归档与管理规范》中虽然规定:
“归档的数码照片应是用数字成像
设备直接拍摄形成的原始图像文
件,不能对数码照片的内容和EXIF
信息进行修改和处理”[7],但市场上
出现了大量的功能强大的图像处理
软件,给照片的后期处理带来了便
利,也给照片的真实性鉴定带来了
挑战。此外,数码照片档案的真实
与否,不但取决于图像是否被修改,
还取决于其元数据是否真实、准
确。操作不当、相机参数设置错误
等都可能造成照片档案原始参数信
息的更改。这些因素常导致数码照
片的伪装性加大,为鉴定工作带来
困扰。
(2)馆藏照片档案标引不完备。
“以图搜图”检索的实施需要庞
大的馆藏照片档案库,即将馆藏电
子照片档案形成图像集,提取特征,
形成特征库,且馆藏数据库本身的
建设需要元数据完备、标引清晰。
但在实际工作中,馆藏照片档案常
由于各种原因没有较为完备的标引
信息,有的照片档案甚至不是原始
照片。馆藏目标库的标引不清晰,给
图像识别工作带来了很大的困扰,即
便系统通过特征识别与人脸识别技
术检索出来了目标照片,也会因为目
标照片本身标引不清晰,并未有更好
的提示作用而被迫放弃。
(3)技术不成熟
目前,“以图搜图”的搜索技术
和数据储备还不太成熟,对于图像
特征描述没有统一的标准。传统的
特征表示往往需要根据先验知识手
工来提取,工作量大,效果不尽如人
意,同时也不符合智能化的要求。
此外,一个关键原因在于可被计算
机识别的低水平的图像像素和人类
感知的高水平语义概念之间存在语
义鸿沟[8]。同时由于数据量过大,
每次检索时间较长,加重了服务器
的负担,影响了检索效率和准确率。
3.2解决方案初探
(1)运用前端控制及全程管理
思想
我国照片档案馆的馆藏资源权
威性不容置疑,主要是“新华社”新
闻发稿照片,占总数95%以上。目
前,馆藏照片的档案性受到质疑的
主要原因并不是其载体的特殊性,
而是其来源不具有新华社这种正式
组织机构的权威性。
因此,有必要借鉴电子文件管
理中前端控制与全程管理的理念,档
案馆加强对照片档案质量控制和源
头干预,建立照片从拍摄、收集、归档
直至整理、利用全过程的真实保障平
台。从形成部门和人员入手,强调
“部门归档”:形成者就是归档者。做
好数码照片档案归档、编目等内容的
指导,培养移交原始数码照片的意
识,保证照片档案的原始性。
(2)标准化制定
照片档案具有无声无字的特殊
性,如果脱离了主题背景,其信息获
取和输出完全依赖于人们直观的自
我解读。档案部门需结合实际,制
业务研究
ProfessionRearch栏目主持:古琬莹
图1“以图搜图”照片档案检索系统框架
40
ARCHIVES&CONSTRUCTION
档案
建设与2018.6
[作者简介]
江媛媛,东南大学档案馆馆员,研究方向是档案信息化管理。
参考文献
[1]彭亚非.读图时代[M].北京:中国社会科学出版社,2011:前言.
[2]宋嘉伟.视觉档案的再构:作为“公众史”的独立影像书写[J].国际新闻界,2015
(9):157-176.
[3][8][11]任夏荔,陈光喜,曹建收,蔡天任.基于深度学习特征的图像检索方法
[J],计算机工程与设计,2018(2):503-510.
[4]顾伟.论声像档案检索方法[J].档案与建设,2017(11):36-50.
[5]张恒博.基于内容的图像数据库检索的技术研究[D].大连:大连理工大学,
2008:86.
[6]何小菁,徐欣云.“影像档案”现象及与声像档案关系的研究[J].档案学通讯,
2017(2):86-90.
[7]国家档案局.DA/T50—2014,数码照片归档与管理规范[S].2014.
[9]蔡毅.探访神秘的中国照片档案馆[N].中国档案报,2009-12-28(2).
[10]王大青.数码照片真实性鉴定系统的开发[J].档案学研究,2012(6):49-51.
[11]张磊.大规模互联网图像检索与模式挖掘[J].中国科学,2013(12):1641-1653.
业务研究
ProfessionRearch栏目主持:古琬莹
定照片档案文字说明的填写标
准,从源头上规范文字说明填写,
在照片生成后第一时间做好标
注。归档后,档案馆员还需对文
字说明进行审核和更正。照片档
案著录信息的完备需要各部门站
在维护档案真实性、完整性的基
础上合作完成。
此外,查全率和查准率是评
价档案检索系统的两大指标,但
由于图像内容本身的复杂性以及
人们认知图像内容的主观性,很
难定义出一个客观的标准,因而
系统评价指标体系方面未来还需
要进一步完善。
(3)技术改进
开发数码照片真实性鉴定系
统,在建立标准数码照片数据库
的基础上,分别对其中的原始照
片数据和伪造图像数据进行采
样,建立像素点间关联的数学模
型,通过对比原始照片和伪造图
像的数据特征,根据经验值,在人
工干预下给定相关参数值、阈值,
藉此对给定的目标数码照片进行
真实性分析[10]。
由开发基于内容的图像检索
方法向基于深度学习特征的图像
检索方法转变。基于深度学习特
征表示在图像处理领域是通过卷
积神经网络(CNN)提取的,CNN
的设计是受大脑工作模式的启
发,将多个神经元组织成一层层的
神经网络,通过组合低层单一的特
征形成抽象的高层特征,模仿人脑
的机制来解释数据[11]。
近年来,很多研究开始寻找视
觉特征的中层表示,以弥补底层特
征和高层语义间的差距。这些中间
层表示往往是由底层特征组合而
成,通过引入局部特征点的位置信
息以反映局部结构,或是采用机器
学习的方法从数据中学习出在语义
上比较一致并具有一定的结构信息
的视觉模式,这成为近年来图像检
索、计算机视觉和机器学习的关键
问题之一[12]。
随着信息可视化的发展,图片
作为信息的载体,更加便捷,效率更
高。照片档案作为主要的可视化信
息载体愈发被重视,其查询需求也
逐步增加。从用户体验的角度来
说,“以图搜图”搜索引擎的出现,使
得用户搜索照片的操作流程更为简
化,搜索体验也更加愉悦。虽然相
关技术条件还不成熟,但是这种搜
索模式已经可以满足用户的大多数
需求。可以预见,读图时代,“以图
搜图”搜索将是继文字搜索后信息
搜索领域的又一重要发展,“以图搜
图”技术应用于照片档案管理的需
求也会日益迫切,且潜力巨大。
*本文系江苏省档案局科技项
目计划“图像识别在档案信息化中
的应用研究”(项目批准号:2017-
20)的阶段性成果。
[作者简介]
邢变变,郑州大学信息管理学院讲师,研究方向是档案学基础理论。
崔夕雨,郑州大学信息管理学院2015级本科生,研究方向是档案学基础理论。
[1]李宗福,郭顺利.档案微信公众号用户持续使用的理论
模型及实证研究[J].档案学研究,2017(4):80-88.
[2]孙大东,于梦文.基于信息偶遇理论的档案微信公众平
台用户关注度调查及优化[J].北京档案,2017(4):25-27.
[3]邢变变.创新扩散理论视域下档案微信传播评价研究——
基于档案微信用户的问卷调查[J].档案与建设,2017(11):8-11+35.
[4]邢变变,冯妍.基于问卷调查的档案微信用户需求满意
度研究[J].山西档案,2017(11):17-20.
参考文献
(上接第12页)
41
本文发布于:2023-03-06 11:59:39,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/zuowen/1678075180157302.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:搜图识图.doc
本文 PDF 下载地址:搜图识图.pdf
留言与评论(共有 0 条评论) |