建设的必要性
(一)历史资源结构化概念
报社历史报刊数据结构化,是指对历史数据进行标签化深度提取,并在标签化过程中清洗广告及无效信息,最终数据类别存储,并可根据多级分类检索系统实现可视化呈现和利用。
这里需要理清的“数字化”转型并不等于“结构化”转型。“数字化”是将原来基于印刷等生产行为生成的符号转换成用“0”和“1”表示的二进制码;或者说,是将模拟数据变成计算机可读的数据,从而在传播介质上摆脱了对纸、光盘等有形之物的依赖。而“数据化”是“一种把现象转变为可制表分析的量化形式的过程”。通俗地讲,就是“让数据发声”的过程,二者有本质的区别。因此,对于媒体转型来说,只是将原有媒体资源转变为计算机可读的数据(这些数据大多为非结构化、半结构化的)远远不够,还必须在此基础上对这些海量数据进行结构化处理与深度挖掘。这也正是建设结构化数据库的意义和价值所在。
(1)数据的细化存储与应用
数据的细化存储是发掘散布在数据孤岛中数据的潜在价值。新闻的组成部分目前来看主要分为文字、图文、组图、音视频几大类。这些数据的分类存储可以更优地提高数据集成管理的效率,方便即刻查看,帮助快捷按需找到所需数据并进行有效分析,从而更快更准的制定决策与数据应用,实现数据的高效运营。
(2)易扩展的多级分类检索技术
通过对历史数据的结构化处理,项目完成后的数据资产,将支持采、编、发流程在内容检索应用中使用多级分类检索技术,除可指定部门库检索、指定发布渠道检索、指定作者、时间这些常规检索要素外,还可通过稿件的“标签”类型进行多媒体稿检索或指定格式稿件类型进行检索,检索出来的内容带有此“标签”的相近“标签”内容推荐,方便后台稿件加工人员更准确地“以文找文”,利于后台编辑快速组织专题进行稿件的加工和策划。
(3)数据结构化的建设效益
通过数据的结构化处理,涵盖报社历史数据结构化处理、报社全部增量数据分类处理、报社全部数据标签化处理,做到了报社资产的全面清点与激活,为今后报社资产重新估值,报社内部资产定价,行业内合作资产定价,带来多方面的经济效益和社会效益。
从数据到价值,从内容到传播力,借助内容资产的汇聚整合盘活媒体经济,挖掘数据的价值,优化内容扩大传播力。借助内容资产的汇聚整合盘活媒体经济实则是穿透媒体,数据的更多价值会体现在与媒体紧密联系的政府、事业单位、企业身上,需要挖掘数据的多种应用角度。
总之,历史数据和增量数据的架构化处理,其核心意义在于:为内容生产注入活力,助力盘活媒体经济建设。
我们的技术方案
一、资源编目
(1)项目名称:《历史报纸数据结构化》
(2)数据库:微软MSsql Server数据库(可选MySQL)
(3)数据引擎:ES搜索引擎
(4)系统架构:采用B/s架构使用
(5)开发语言:采用C#语言(可选PHP)
(6)接口提供:可提供与标准化XML导出,实现云数据交换的接口开发。
1)标准化数据接口能力
系统可提供HTTP GET/POST等WEB SERVEICE服务,支持常用数据格式XML/JSON等, 方便开发者调用与开发, 产生的数据需为标准、无加密数据格式。
系统支持数据接口的对接,数据接口遵循统一数据标准协议,保证完全解耦的对接方式,并支持高可用、高性能、可扩展的能力。
系统接口满足开放性要求:平台能提供与第三方业务系统对接的接口程序解决方案,具备接口管理功能,支持主流开发平台,为以后可能对接的其它应用系统预留开放标准的程序接口,支持扩展定制。要求支持国际标准协议Web Service服务接口和其他标准的协议接口(如:HTTP协议、XML协议、HTML协议访问接口),可提供二次开发Web service接口和其他标准协议的接口,应用这些接口可以完成对系统和数据的管理与操作。
下面以通用的数据接口举例,通过该接口,可获取以下信息,包括: 数据源属性、媒体名称、媒体ID、标题、副标题、肩标题、插图、正文、发布时间、作者、文章字数、插图数量、插图长宽、插图文件大小、发布媒体、媒体所在省份城市、内容类别等信息。
系统遵循通用软件系统标准规范制定,支持标准数据协议JSON/XML,可以适配各种业务系统的接入,便于数据交换共享,能适应需求变更及扩展,具备根据实际业务需要快速构建出合适功能的能力。由于使用XML Schema规范作为数据交换的格式很好的屏蔽了异构数据源之间的差异,如果加入新的数据源只需将数据源包装成XML模式就可以接入到交换平台中。因此可以通过接口封装方便的与第三方稿件提供方、使用方的数据进行对接。
2)系统接口开对接
可提供与第三方业务系统平台对接的接口程序解决方案,具备接口管理功能,支持主流开发平台,预留开放标准的程序接口,支持扩展定制。支持国际标准协议Web Service服务接口和其他标准的协议接口(如:HTTP协议、XML协议、HTML协议访问接口),可提供二次开发Web service接口和其他标准协议的接口。
(二)数字化生产工艺要求
1、整理登记
历史报纸数字化的各个环节均应进行详细的登记,并及时整理、汇总,装订成册,在数字化工作完成的同时建立起完整、规范的记录。
2、扫描流程
历史报纸数字化的基本环节主要包括:报纸整理、报纸扫描、图像处理、图像存储、装订、数据挂接等。
3、目录数据准备
规范报纸中的目录内容。包括确定报纸目录的著录项、字段长度和内容要求。如有错误或不规范的期号、正标、副标、正文、繁体、竖排、图片、起止版号和版数等,应进行修改。
4、拆除装订
在装订物影响扫描工作进行的档案,应拆除装订物。拆除装订物时应注意保护报纸不受损害,不允许裁切报纸纸张。
5、报纸扫描
5.1扫描方式
(1)根据报纸幅面的大小(四开、对开等)选择相应规格的扫描仪或专业扫描仪进行扫描。为提升扫描效率,对开报纸采用超宽幅扫描仪进行扫描,可同时对4个版的对开报或者8个版的四开报进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。
(2)扫描时应根据报纸的材质选择相应的扫描设备,保证报纸不受损。纸张状况较差,以及过薄、过软或超厚的报纸,应采用平板扫描方式,纸张状况好的报纸可采用高速扫描方式以提高工作效率。对需要进入宽幅扫描机的时候进行覆膜保护后再扫描。
(3)扫描时保证放纸端正、不压边、不漏扫、错扫、严格确保图像质量。
5.2扫描色彩模式
(1)扫描色彩模式一般有黑白二值、灰度、彩色等。通常采用黑白二值,以扫描后的图像清晰、完整,报纸内容信息与报纸原件一致为准。
(2)版面为黑白两色,并且字迹清晰、不带插图的报纸。可采用黑白二值模式进行扫描。
(3)版面为黑白两色,但字迹清晰度差或带有插图的报纸,以及版面为多色文字的报纸,可以采用灰度模式扫描。
(4)版面中有红头或插有黑白照片、彩色照片、彩色插图的报纸,可视需要采用彩色模式进行扫描。对于年代久远、字迹模糊、纸张颜色和文本反差不大、斑迹较大等情况的报纸采24位彩色方式扫描。
5.3扫描分辨率
(1)扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。
(2)对进行OCR汉字识别的报纸,扫描分辨率建采用大于或等于250dpi,本次项目均采用300dpi扫描。
5.4扫描登记
填写历史报纸数字化转换过程交接登记表单,登记扫描的发行时间、发布期号,核对每份报纸的实际扫描版数与报纸整理时填写的报纸版数是否一致,不一致时应注明具体原因和处理方法。
6、图像处理
6.1图像数据质量检查
(1)由于操作不当,造成扫描的图像文件不完整或无法清晰识别时,应重新扫描。
(2)漏扫时,及时补扫并正确插入图像。对报纸中漏编的版面进行合版处理,确保扫描好的影像版数与原版数一致。
(3)扫描图像的排列顺序与报纸原件不一致时,及时进行调整。最终扫描文件以日期为文件夹编号进行排序存储。
6.2纠偏
对图像偏斜度、清晰度、失真度等进行检查。发现不符合图像质量要求时,应重新进行图像的处理。每版影像左右端正度控制在2度以内,以达到视觉上基本不感觉偏斜为准。对方向不正确的图像进行旋转还原,以符合阅读习惯。不出现图像的一部分出现倾斜或扭曲而影响阅读的现象。厚的报纸装订线较近边角的报纸内容会产生扭曲现象,需保证版面能看清楚。
6.3去污
在保证版面内容完整的前提下,影像版无扫描过程中带来的污斑,无黑边,外观达到清晰、平直、干净。对图像版面中出现的影响图像质量的杂质如黑点、黑线、黑框、黑边等进行去污处理。处理过程中遵循在不影响可读性和可理解性的前提下展现报纸原貌的原则,由于报纸本身因陈旧、破损或不洁等造成版面上有污点的,如果在版面视图下无法看清,或该污点嵌在文本行中无法清除,可不予清除。纸张太薄或字体颜色过浓,扫描时倒映反面文字,文字上的污点无法去污时,保证正文文字可以看清楚。
6.4裁边处理
采用彩色模式扫描的图像应进行裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。
图像处理后保证图像信息与原报纸内容完全一致,不删除版面任何有用信息,包括正文内容、版眉、版脚等。扫描的版面内容基本居中显示,不出现明显偏左或偏右现象。不准出现版面内容残缺或将其它版面信息扫入本版的现象。
7、图像存储
7.1 存储格式
一般采用PDF格式存储,以文件为单位生成PDF文件,一个版面对应一个PDF文件,一份报纸对应一个或多个PDF文件。一个期号、版面分别对应一个文件夹,一个项目文件包括一个或多个文件夹,一个文件夹包括一个或多个版面文件夹,一个期号文件夹包括一个或多个PDF文件。
7.2 扫描件的命名
历史报纸目录数据库中的每一份文件,都有一个与之相对应的唯一编号,以该报纸为这份文件扫描后的图像文件命名。以年月日和期号对文件夹进行命名,以日期号和版面号对PDF文件进行命名,如20210529-01,为2021年5月29日第一版。
8、装订
扫描工作完成后,拆除过装订物的报纸应按档案保管的要求重新装订。恢复装订时,应注意保持档案的排列顺序不变,做到安全、准确、无遗漏。
装订不能损害报纸原件。装订时应按原有顺序装订,报纸不掉版、左边和底边整齐,保持拆卷前的原貌;装订后由甲方负责检查,不符合要求的退回重新装订,要求一次性完成装订。并认真做好报纸期码、版数的登记。
通过图像化的报刊文件,做到数据化,前提是必须通过技术手段实现像素(位图、转曲)的文字转换为文本化。
(一)版面OCR识别提取实施方案
由于扫描后的报刊文件是基于位图的结构,尤其是老旧铅字印刷的报纸,其识别率极低。版面文章原则上进行全识别提取,项目关键点如下:
(1)遇到繁体中文应简化后提取;
(2)标题识别要分肩题、标题、副标题进行分类提取;
(3)文章遇到从右往左排版的应正确识别提取;
(4)提取过程中遇到明显错别字的应改错后提取;
(5)新闻图片单独提取且另存JPG文件便于录入;
(6)识别过程中按单个段落和单个文章进行识别,识别后记录进WPS文档进行管理,每期报纸进行一个文档管理。
(7)由于报纸中缝的信息价值不高,且合订本拆除后,中缝可能存在破损,本次项目不推荐识别中缝。
本系统将历史数据资源传送到数据预处理中心,通过现有的自动分类系统进行数据预处理,然后数据传送至ETL节点,进行过滤清洗;数据经过结构化后,将产生一批固定标签,固定标签为数据的通用属性。
四、数据清洗结构化处理
海量的历史数据,单纯靠算法去实现多维度、多关联度的并发检索请求是不现实的,必须建立一套基础的、灵活的、可控制的、可无限扩展的架构,然后让算法在框定的范围内进行运算,这样才会在合理的时间范围内,得到需要的结果。全面标签化处理,结构化过程将分为两部分:
第一部分为结构化通用属性标签,比如:文章标题、正文、插图等等;
第二部分为特有属性标签,比如:数字报:版面图、版次、版面名称等等;
以下为详细属性标签表的样例,具体将针对报社数据情况进一步分析,决定最终标签标准。有些标签是特有的,还有些是基于算法计算获得的,比如:自动分类标签和文章核心关键词标签。
海量的历史数据,单纯靠算法去实现多维度、多关联度的并发检索请求是不现实的,必须建立一套基础的、灵活的、可控制的、可无限扩展的架构,然后让算法在框定的范围内进行运算,这样才会在合理的时间范围内,得到需要的结果。全面标签化处理,结构化过程将分为两部分:
第一部分为结构化通用属性标签,比如:文章标题、正文、插图等等;
第二部分为特有属性标签,比如:数字报:版面图、版次、版面名称等等;
以下为详细属性标签表的样例,具体将针对《德阳日报》报社数据情况进一步分析,决定最终标签标准。有些标签是《德阳日报》特有的,还有些是基于算法计算获得的,比如:自动分类标签和文章核心关键词标签。
系统功能
(一)结构化文章查看
经过结构化的报纸数据,在查看单篇文章时,可以看到多种标签,例如文章具体来源,文章发布的日期,文章的原创转载判断,文章的情感指数,查看文章原文,文章的纯净浏览,文章站内浏览等,文章正文,文章标题,文章插图等。单篇新闻可以灵活收藏,新闻则可以在将该文章收藏到“我的收藏”中,后续便于快捷查看。
查看多篇文章则支持系统按时间排序、按相关度排序,分为“摘要查看”、“列表查看”和“标题查看”三种方式。可以看到列表中文章的标题、概要,文章分类标签、是否有图、原创信息,文章来源等。
(二)多维度文章检索
经过结构化的报纸数据,支持多维度的检索,可以通过全文、标题、引题、副题、正文、来源、作者、栏目、分类等多种方式进行检索。将历史数据在数字化的基础上进行了结构化的处理,每篇文章均被拆解成一个个分词,打上一个个属性标签。在结构化的基础上实现灵活的检索功能,各种字段均可以支持采、编、发流程中多级分类检索,还可通过稿件的“标签”类型进行检索,并可作相近内容推荐,方便后台更准确地“以文找文”,利于后台编辑快速组织专题并进行稿件的加工和策划。每个字段的检索条件均支持或与非三种语法的并用。检索结果支持按时间和相关度排序,并提供简单统计功能。第一,提供媒体分布统计,用于查看一个媒体对于某一事件的全部报道,可以用做对该事件深度的专题报道的参考。第二,提供时间刻度,可对不同时间段报道情况的梳理,用于对报道周期比较长的事件梳理报道情况。将支持主题监控功能,用于重要搜索记录的保存,方便搜素结果的后续快速查看和专题制作。
(三)电子报浏览
为了适应日常使用人员的操作习惯,结构化的数据仍然支持数字报的浏览方式,在电子报浏览方式中可以按照日期和版次快速的进行报纸的浏览和文章的定位。也可以进行全局的搜索,列表浏览,树结构浏览等。点击报纸的星号,对一份报纸进行收藏。收藏后可在我的收藏中快速打开,不用再从资源浏览中寻找。在浏览报纸过程中,也可以对某一版面进行收藏,收藏后,可在我的收藏中快速查看。可以通过多方式对数字报进行浏览,结构化后的数据,为了适应日常使用人员的操作习惯,沿用了数字报的浏览方式,可根据刊期,版面,版次进行浏览,也可以进行全局的搜索,列表浏览,树结构浏览等。
(四)系统功能
1、软件基础功能清单
实现报刊阅读;
实现报刊搜索,快速定位报刊内容;
实现标题导航系统功能;
实现日历导航系统功能;
实现电子报刊内容电子化,实现每一篇文章的热点显示、动画效果;
原版PDF阅读下载;
实现报刊评论、文章评论;
实现在线下载、在线投稿、友情链接管理功能;
实现对开版面(连版)显示样式;
实现数字报刊网站广告管理;
总结:因涉及数据安全和版权保护的问题,我公司负责过多个报社的历史报纸数据制作工作,有自己的核心竞争力,如您有需要,我公司将提供整套解决方案。历史报刊数字化是一项尊重历史、保护历史资料、挖掘资料价值的工程,让尘封的珍贵报刊通过现代信息技术以一种崭新的面貌呈现在读者面前,体现了社会责任和文化创新精神,保护与开发并存,让历史报刊重新面对公众,为了解和研究中国近现代新闻发展历史提供丰富的信息源泉。
联系电话:18080664646 公司负责人: 陈先生