首页 > 试题

民国报纸数字化加工流程研究

更新时间:2025-01-01 07:24:46 阅读: 评论:0

2024年3月26日发(作者:中华孔子学会)

龙源期刊网

民国报纸数字化加工流程研究

作者:张玮

来源:《科学与信息化》2019年第14期

龙源期刊网

龙源期刊网

摘 要 民国报纸数字化加工不仅实现了报纸图像数字化,还对篇目标题进行了文字识别

本文对民国报纸数字化加工流程进行研究,对数字化加工流程中的版式分析、OCR识别两个

步骤进行重点介绍,并附图给予详细说明。

关键词 民国报纸;数字化加工;版式分析;OCR识别

前言

由于报纸酸性大、存储难、学者使用率低、科研价值高等原因,民国报纸数字化成为当下

解决问题的主要途径。国家图书馆自2014年启动民国报纸外包数字化项目以来,本着便于读

者检索、提供多样服务的原则,在对民国报纸进行图像扫描外,还增加了篇目标题OCR文字

识别。

龙源期刊网

民国报纸数字化加工流程,是一个环环相扣的过程,每一道工序都需要严格把关,外包公

司通过不断的技术更新及人员监控,提交高质量的民国报纸数字化加工成果。大致的加工流程

包括:民国报纸转化为数字图像(数字图像是由国家图书馆提供)、外包公司导入图像并整理

归档、图像纠偏、格式转换等处理、版式分析、OCR文字识别、排版输出成品数据、质检成

品数据、提交成品数据。外包公司具体的数字化加工流程见图1:

1 加工前准备工作

民国报纸数字化加工前期工作包括:民国报纸扫描成数字化图像、外包公司接收到图像后

进行图像整理、图像处理。

民国报纸数字化图像是由国家图书馆缩微部门以8位灰度、300dpi的参数扫描民国报纸缩

微胶片得来的。

外包公司接收到图像后,需要对原始图像进行清点,将残缺、模糊、缺版等情况与馆方确

认并形成数据清单。

图像数据无误后,需要人工分析报纸的版面特性,制定适合该报纸的模板尺寸,利用制定

好的模板进行图像处理。外包公司应用图像处理工具,自动检查整理图像的DPI与图像模式,

自动批量进行图像倾斜校对,去除报纸黑边、扩展画布白边,进行图像格式转换(如:TIFF

格式转换成JPG格式)、图像重命名等。图像处理工具会提示疑似错误的处理,并标红,需要

人工检查修改。

2 版式分析

民国报纸数字化图像经过前期准备工作之后,进入第一个重要环节:版式分析,该工序是

民国报纸数字化加工中特别重要的一个环节,直接影响下一步OCR识别的内容,也影响报纸

数字化的质量。外包公司有专业软件进行版式分析,如:汉王科技采用公司自己开发的汉王

OCR-版面分析识别终端。

版式分析主要是对民国报纸的版面进行切分,划定栏目;篇目引题、标题、副题;正文;作者;

图片标题、图片作者、广告等信息,标记需要OCR识别的内容。版式分析主要采用版面分析

识别软件进行机器切分,人工辅助调整完成。

2.1 机器切分

版面分析识别软件会根据设定的程序切分出引题、标题、副题、正文等信息,以不同的颜

色、标记标识,如图2所示,红色框代表标题部分,需要OCR文字识别;绿色框代表正文、图

片等,不需要OCR文字识别。

龙源期刊网

标记部分代表的意思解释:第一个数字标记代表该版面中第几个篇目,篇目顺序一般按版

面从右到左、从上到下的顺序依次识别,如遇特殊情况或者人工调整可不按此规则。第二个数

字标记代表该篇目的第几个框,篇目中画框一般依据引题、标题、副题、正文的顺序标记。第

三个字母标记J代表是机器切分,第四个字母标记:YT代表引题、BT代表标题、FT代表副

题、ZW代表正文、GG代表广告、LT代表栏目;第五个字母标记:V代表垂直方向上从右到左

的顺序识别、H代表水平方向上从左到右识别、I代表图像;有的篇目有第六个标记*,代表主

要校对项,需要重点检查。例如:3 3-3 J FT V *,3代表此版面中按顺序识别的第3个篇目、

3-3代表第3个篇目内容的第3个框、J代表机器识别、FT代表框中的内容为副题、V代表此

篇目的标题识别顺序为垂直排版,从右到左依次识别引题、标题、副题、*代表此副题需要重

点校对。

机器切分存在的问题:篇目由切分部分合成为一个完整篇目时出现框线锯齿、报纸倾斜等

原因导致相邻篇目框线压字、遗漏篇目未切分等,这些问题需要人工自行调整。

2.2 人工调整

对于遗漏篇目,版面分析识别软件提供快速划分工具,只需点一下快捷按钮选中相应内

容,即生成该部分符号标记;对切分好的框线,也可由操作员拖动框线手动调整框线范围。

考虑美观和完整性,篇目框线应该包含篇目所有内容,不压字,且不存在锯齿,但如果由

于报纸倾斜导致篇目框线如不存在锯齿就会压字,以保证框的篇目内容完整为原则,可以存在

锯齿的情况。

3 OCR文字识别

版式分析且质检无误后,进入下一个重要环节:OCR文字识别。文字识别要求按照原篇

目内容引题、标题、副题的顺序原貌识别,关于作者的识别虽不用单独切分成框,按照甲乙双

方签订的合同也是需要识别出来的。

OCR文字识别主要采用机器自动识别,人工纠正为辅。

3.1 机器识别

机器识别根据用户需求开发的,能够进行后台自动识别文字,主要分为三个步骤:切分、

校对;聚类挑字;改字。

切分是把需要文字识别的部分进行细化分割[1],拆成一字一框的形式,见图3所示,绿色

代表机器认为切分正确,红色代表机器怀疑切分错误,需人工确认。在文字切分识别后需要进

行文字拼合,为保证合成的文字内容的原坐标位置不变,使后期PDF文字层与图像层对位准

确,这一步增加后台校对功能。

龙源期刊网

聚类挑字是把一批次中所有同一个字的字形聚集到一起,选出与标准字库不一样的那一个

进行标记,为下一步错字修改做准备,同时也能通过不断学习逐步完善标准字库。例如:点通

采用四家机器人对文字做识别处理,参见图4,第一个字是标准字,也就是机器应该识别成的

字,后面的字都是字图,字图中的字和该标准字的字形相近,也即该标准字的怀疑字,怀疑字

是机器对至少近五期的报纸识别统计后选出的,也是四家机器人识别碰撞后趋同的字(四家机

器人识别结果都一样的字直接跳过挑字和改字;四家机器人识别结果都不一样的

则直接跳过挑字,进入改字阶段;四家机器人识别结果趋同,则进入挑字阶段)。

改字是对四家机器人识别结果都不一样的字和挑字过程中挑出来的错别字进行修正,见图

5改字界面,改字时系统程序提供一些备选字,改字人员从中选出正确的字,或者直接输入正

确的字,必要时还可以调用报纸版面原图,通过原文内容对文字进行辅助修正。

3.2 人工识别

人工录入主要适用于报纸版面混乱、版面不清晰、OCR识别效果不理想的情况。人工录

入分为人工切分、人工录入、人工比较(质检)三个阶段,其中人工录入阶段采用两人同时并

行录入同一部分内容,两人录入完成后由第三人对录入结果进行比较,找出录入结果不同的字

进行修正。

所有识别后的文字都要再经过一步质检,检查文字识别是否正确、标点是否符合原貌实况

等,如合格进入下一步导出成品数据,不合格返回人工录入进行修改。

4 导出成品数据及验收

导出成品数据之前需要进行排版,主要分文本排版和PED排版。排版无误后导出成品数

据。

文本排版主要对合成的文字段落进行排版处理,恢复文字原貌,即引题、标题、副题的分

段,添加空格,添加标点符号等,在进行文本排版的过程中也可以进行文字的校对,发现错误

随时修改。

PED排版主要对生成的PED进行人工处理,优化文字的覆盖和重合效果,保证文字和报

纸原图在位置上的对应。PED排版是一个中间过程,最终生成双层PDF。

导出的成品数据还要再经过一步全面质检,主要检查报纸元数据及篇目框线、篇目内容识

别等信息[2],质检无误即可提交给国家图书馆。

5 结束语

龙源期刊网

民国报纸数字化加工不仅实现民国报纸图像数字化,还对标题类文字进行原貌识别,主要

经过版式分析和OCR识别两步,随着技术的不断更新,民国报纸数字化加工流程也会不断简

化和智能化。

参考文献

[1] 孙羽菲.低质量文本图像OCR技术的研究[D].北京:中国科学院,2005.

[2] 肖紅,槐燕.民国报纸数字化实践中的质检问题探析[J].图书馆学研究,2017,(7):

61-78.

本文发布于:2024-03-26 22:19:38,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/88/60692.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:民国报纸数字化加工流程研究.doc

本文 PDF 下载地址:民国报纸数字化加工流程研究.pdf

标签:识别   报纸   进行
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|