建設的必要性
(一)歷史資源結構化概念
報社歷史報刊數據結構化,是指對歷史數據進行標簽化深度提取,并在標簽化過程中清洗廣告及無效信息,最終數據類別存儲,并可根據多級分類檢索系統實現可視化呈現和利用。
這里需要理清的“數字化”轉型并不等于“結構化”轉型。“數字化”是將原來基于印刷等生產行為生成的符號轉換成用“0”和“1”表示的二進制碼;或者說,是將模擬數據變成計算機可讀的數據,從而在傳播介質上擺脫了對紙、光盤等有形之物的依賴。而“數據化”是“一種把現象轉變為可制表分析的量化形式的過程”。通俗地講,就是“讓數據發聲”的過程,二者有本質的區別。因此,對于媒體轉型來說,只是將原有媒體資源轉變為計算機可讀的數據(這些數據大多為非結構化、半結構化的)遠遠不夠,還必須在此基礎上對這些海量數據進行結構化處理與深度挖掘。這也正是建設結構化數據庫的意義和價值所在。
(1)數據的細化存儲與應用
數據的細化存儲是發掘散布在數據孤島中數據的潛在價值。新聞的組成部分目前來看主要分為文字、圖文、組圖、音視頻幾大類。這些數據的分類存儲可以更優地提高數據集成管理的效率,方便即刻查看,幫助快捷按需找到所需數據并進行有效分析,從而更快更準的制定決策與數據應用,實現數據的高效運營。
(2)易擴展的多級分類檢索技術
通過對歷史數據的結構化處理,項目完成后的數據資產,將支持采、編、發流程在內容檢索應用中使用多級分類檢索技術,除可指定部門庫檢索、指定發布渠道檢索、指定作者、時間這些常規檢索要素外,還可通過稿件的“標簽”類型進行多媒體稿檢索或指定格式稿件類型進行檢索,檢索出來的內容帶有此“標簽”的相近“標簽”內容推薦,方便后臺稿件加工人員更準確地“以文找文”,利于后臺編輯快速組織專題進行稿件的加工和策劃。
(3)數據結構化的建設效益
通過數據的結構化處理,涵蓋報社歷史數據結構化處理、報社全部增量數據分類處理、報社全部數據標簽化處理,做到了報社資產的全面清點與激活,為今后報社資產重新估值,報社內部資產定價,行業內合作資產定價,帶來多方面的經濟效益和社會效益。
從數據到價值,從內容到傳播力,借助內容資產的匯聚整合盤活媒體經濟,挖掘數據的價值,優化內容擴大傳播力。借助內容資產的匯聚整合盤活媒體經濟實則是穿透媒體,數據的更多價值會體現在與媒體緊密聯系的政府、事業單位、企業身上,需要挖掘數據的多種應用角度。
總之,歷史數據和增量數據的架構化處理,其核心意義在于:為內容生產注入活力,助力盤活媒體經濟建設。
我們的技術方案
一、資源編目
(1)項目名稱:《歷史報紙數據結構化》
(2)數據庫:微軟MSsql Server數據庫(可選MySQL)
(3)數據引擎:ES搜索引擎
(4)系統架構:采用B/s架構使用
(5)開發語言:采用C#語言(可選PHP)
(6)接口提供:可提供與標準化XML導出,實現云數據交換的接口開發。
1)標準化數據接口能力
系統可提供HTTP GET/POST等WEB SERVEICE服務,支持常用數據格式XML/JSON等, 方便開發者調用與開發, 產生的數據需為標準、無加密數據格式。
系統支持數據接口的對接,數據接口遵循統一數據標準協議,保證完全解耦的對接方式,并支持高可用、高性能、可擴展的能力。
系統接口滿足開放性要求:平臺能提供與第三方業務系統對接的接口程序解決方案,具備接口管理功能,支持主流開發平臺,為以后可能對接的其它應用系統預留開放標準的程序接口,支持擴展定制。要求支持國際標準協議Web Service服務接口和其他標準的協議接口(如:HTTP協議、XML協議、HTML協議訪問接口),可提供二次開發Web service接口和其他標準協議的接口,應用這些接口可以完成對系統和數據的管理與操作。
下面以通用的數據接口舉例,通過該接口,可獲取以下信息,包括: 數據源屬性、媒體名稱、媒體ID、標題、副標題、肩標題、插圖、正文、發布時間、作者、文章字數、插圖數量、插圖長寬、插圖文件大小、發布媒體、媒體所在省份城市、內容類別等信息。
系統遵循通用軟件系統標準規范制定,支持標準數據協議JSON/XML,可以適配各種業務系統的接入,便于數據交換共享,能適應需求變更及擴展,具備根據實際業務需要快速構建出合適功能的能力。由于使用XML Schema規范作為數據交換的格式很好的屏蔽了異構數據源之間的差異,如果加入新的數據源只需將數據源包裝成XML模式就可以接入到交換平臺中。因此可以通過接口封裝方便的與第三方稿件提供方、使用方的數據進行對接。
2)系統接口開對接
可提供與第三方業務系統平臺對接的接口程序解決方案,具備接口管理功能,支持主流開發平臺,預留開放標準的程序接口,支持擴展定制。支持國際標準協議Web Service服務接口和其他標準的協議接口(如:HTTP協議、XML協議、HTML協議訪問接口),可提供二次開發Web service接口和其他標準協議的接口。
(二)數字化生產工藝要求
1、整理登記
歷史報紙數字化的各個環節均應進行詳細的登記,并及時整理、匯總,裝訂成冊,在數字化工作完成的同時建立起完整、規范的記錄。
2、掃描流程
歷史報紙數字化的基本環節主要包括:報紙整理、報紙掃描、圖像處理、圖像存儲、裝訂、數據掛接等。
3、目錄數據準備
規范報紙中的目錄內容。包括確定報紙目錄的著錄項、字段長度和內容要求。如有錯誤或不規范的期號、正標、副標、正文、繁體、豎排、圖片、起止版號和版數等,應進行修改。
4、拆除裝訂
在裝訂物影響掃描工作進行的檔案,應拆除裝訂物。拆除裝訂物時應注意保護報紙不受損害,不允許裁切報紙紙張。
5、報紙掃描
5.1掃描方式
(1)根據報紙幅面的大小(四開、對開等)選擇相應規格的掃描儀或專業掃描儀進行掃描。為提升掃描效率,對開報紙采用超寬幅掃描儀進行掃描,可同時對4個版的對開報或者8個版的四開報進行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。
(2)掃描時應根據報紙的材質選擇相應的掃描設備,保證報紙不受損。紙張狀況較差,以及過薄、過軟或超厚的報紙,應采用平板掃描方式,紙張狀況好的報紙可采用高速掃描方式以提高工作效率。對需要進入寬幅掃描機的時候進行覆膜保護后再掃描。
(3)掃描時保證放紙端正、不壓邊、不漏掃、錯掃、嚴格確保圖像質量。
5.2掃描色彩模式
(1)掃描色彩模式一般有黑白二值、灰度、彩色等。通常采用黑白二值,以掃描后的圖像清晰、完整,報紙內容信息與報紙原件一致為準。
(2)版面為黑白兩色,并且字跡清晰、不帶插圖的報紙。可采用黑白二值模式進行掃描。
(3)版面為黑白兩色,但字跡清晰度差或帶有插圖的報紙,以及版面為多色文字的報紙,可以采用灰度模式掃描。
(4)版面中有紅頭或插有黑白照片、彩色照片、彩色插圖的報紙,可視需要采用彩色模式進行掃描。對于年代久遠、字跡模糊、紙張顏色和文本反差不大、斑跡較大等情況的報紙采24位彩色方式掃描。
5.3掃描分辨率
(1)掃描分辨率參數大小的選擇,原則上以掃描后的圖像清晰、完整、不影響圖像的利用效果為準。
(2)對進行OCR漢字識別的報紙,掃描分辨率建采用大于或等于250dpi,本次項目均采用300dpi掃描。
5.4掃描登記
填寫歷史報紙數字化轉換過程交接登記表單,登記掃描的發行時間、發布期號,核對每份報紙的實際掃描版數與報紙整理時填寫的報紙版數是否一致,不一致時應注明具體原因和處理方法。
6、圖像處理
6.1圖像數據質量檢查
(1)由于操作不當,造成掃描的圖像文件不完整或無法清晰識別時,應重新掃描。
(2)漏掃時,及時補掃并正確插入圖像。對報紙中漏編的版面進行合版處理,確保掃描好的影像版數與原版數一致。
(3)掃描圖像的排列順序與報紙原件不一致時,及時進行調整。最終掃描文件以日期為文件夾編號進行排序存儲。
6.2糾偏
對圖像偏斜度、清晰度、失真度等進行檢查。發現不符合圖像質量要求時,應重新進行圖像的處理。每版影像左右端正度控制在2度以內,以達到視覺上基本不感覺偏斜為準。對方向不正確的圖像進行旋轉還原,以符合閱讀習慣。不出現圖像的一部分出現傾斜或扭曲而影響閱讀的現象。厚的報紙裝訂線較近邊角的報紙內容會產生扭曲現象,需保證版面能看清楚。
6.3去污
在保證版面內容完整的前提下,影像版無掃描過程中帶來的污斑,無黑邊,外觀達到清晰、平直、干凈。對圖像版面中出現的影響圖像質量的雜質如黑點、黑線、黑框、黑邊等進行去污處理。處理過程中遵循在不影響可讀性和可理解性的前提下展現報紙原貌的原則,由于報紙本身因陳舊、破損或不潔等造成版面上有污點的,如果在版面視圖下無法看清,或該污點嵌在文本行中無法清除,可不予清除。紙張太薄或字體顏色過濃,掃描時倒映反面文字,文字上的污點無法去污時,保證正文文字可以看清楚。
6.4裁邊處理
采用彩色模式掃描的圖像應進行裁邊處理,去除多余的白邊,以有效縮小圖像文件的容量,節省存儲空間。
圖像處理后保證圖像信息與原報紙內容完全一致,不刪除版面任何有用信息,包括正文內容、版眉、版腳等。掃描的版面內容基本居中顯示,不出現明顯偏左或偏右現象。不準出現版面內容殘缺或將其它版面信息掃入本版的現象。
7、圖像存儲
7.1 存儲格式
一般采用PDF格式存儲,以文件為單位生成PDF文件,一個版面對應一個PDF文件,一份報紙對應一個或多個PDF文件。一個期號、版面分別對應一個文件夾,一個項目文件包括一個或多個文件夾,一個文件夾包括一個或多個版面文件夾,一個期號文件夾包括一個或多個PDF文件。
7.2 掃描件的命名
歷史報紙目錄數據庫中的每一份文件,都有一個與之相對應的唯一編號,以該報紙為這份文件掃描后的圖像文件命名。以年月日和期號對文件夾進行命名,以日期號和版面號對PDF文件進行命名,如20210529-01,為2021年5月29日第一版。
8、裝訂
掃描工作完成后,拆除過裝訂物的報紙應按檔案保管的要求重新裝訂。恢復裝訂時,應注意保持檔案的排列順序不變,做到安全、準確、無遺漏。
裝訂不能損害報紙原件。裝訂時應按原有順序裝訂,報紙不掉版、左邊和底邊整齊,保持拆卷前的原貌;裝訂后由甲方負責檢查,不符合要求的退回重新裝訂,要求一次性完成裝訂。并認真做好報紙期碼、版數的登記。
通過圖像化的報刊文件,做到數據化,前提是必須通過技術手段實現像素(位圖、轉曲)的文字轉換為文本化。
(一)版面OCR識別提取實施方案
由于掃描后的報刊文件是基于位圖的結構,尤其是老舊鉛字印刷的報紙,其識別率極低。版面文章原則上進行全識別提取,項目關鍵點如下:
(1)遇到繁體中文應簡化后提取;
(2)標題識別要分肩題、標題、副標題進行分類提取;
(3)文章遇到從右往左排版的應正確識別提取;
(4)提取過程中遇到明顯錯別字的應改錯后提取;
(5)新聞圖片單獨提取且另存JPG文件便于錄入;
(6)識別過程中按單個段落和單個文章進行識別,識別后記錄進WPS文檔進行管理,每期報紙進行一個文檔管理。
(7)由于報紙中縫的信息價值不高,且合訂本拆除后,中縫可能存在破損,本次項目不推薦識別中縫。
本系統將歷史數據資源傳送到數據預處理中心,通過現有的自動分類系統進行數據預處理,然后數據傳送至ETL節點,進行過濾清洗;數據經過結構化后,將產生一批固定標簽,固定標簽為數據的通用屬性。
四、數據清洗結構化處理
海量的歷史數據,單純靠算法去實現多維度、多關聯度的并發檢索請求是不現實的,必須建立一套基礎的、靈活的、可控制的、可無限擴展的架構,然后讓算法在框定的范圍內進行運算,這樣才會在合理的時間范圍內,得到需要的結果。全面標簽化處理,結構化過程將分為兩部分:
第一部分為結構化通用屬性標簽,比如:文章標題、正文、插圖等等;
第二部分為特有屬性標簽,比如:數字報:版面圖、版次、版面名稱等等;
以下為詳細屬性標簽表的樣例,具體將針對報社數據情況進一步分析,決定最終標簽標準。有些標簽是特有的,還有些是基于算法計算獲得的,比如:自動分類標簽和文章核心關鍵詞標簽。
海量的歷史數據,單純靠算法去實現多維度、多關聯度的并發檢索請求是不現實的,必須建立一套基礎的、靈活的、可控制的、可無限擴展的架構,然后讓算法在框定的范圍內進行運算,這樣才會在合理的時間范圍內,得到需要的結果。全面標簽化處理,結構化過程將分為兩部分:
第一部分為結構化通用屬性標簽,比如:文章標題、正文、插圖等等;
第二部分為特有屬性標簽,比如:數字報:版面圖、版次、版面名稱等等;
以下為詳細屬性標簽表的樣例,具體將針對《德陽日報》報社數據情況進一步分析,決定最終標簽標準。有些標簽是《德陽日報》特有的,還有些是基于算法計算獲得的,比如:自動分類標簽和文章核心關鍵詞標簽。
系統功能
(一)結構化文章查看
經過結構化的報紙數據,在查看單篇文章時,可以看到多種標簽,例如文章具體來源,文章發布的日期,文章的原創轉載判斷,文章的情感指數,查看文章原文,文章的純凈瀏覽,文章站內瀏覽等,文章正文,文章標題,文章插圖等。單篇新聞可以靈活收藏,新聞則可以在將該文章收藏到“我的收藏”中,后續便于快捷查看。
查看多篇文章則支持系統按時間排序、按相關度排序,分為“摘要查看”、“列表查看”和“標題查看”三種方式。可以看到列表中文章的標題、概要,文章分類標簽、是否有圖、原創信息,文章來源等。
(二)多維度文章檢索
經過結構化的報紙數據,支持多維度的檢索,可以通過全文、標題、引題、副題、正文、來源、作者、欄目、分類等多種方式進行檢索。將歷史數據在數字化的基礎上進行了結構化的處理,每篇文章均被拆解成一個個分詞,打上一個個屬性標簽。在結構化的基礎上實現靈活的檢索功能,各種字段均可以支持采、編、發流程中多級分類檢索,還可通過稿件的“標簽”類型進行檢索,并可作相近內容推薦,方便后臺更準確地“以文找文”,利于后臺編輯快速組織專題并進行稿件的加工和策劃。每個字段的檢索條件均支持或與非三種語法的并用。檢索結果支持按時間和相關度排序,并提供簡單統計功能。第一,提供媒體分布統計,用于查看一個媒體對于某一事件的全部報道,可以用做對該事件深度的專題報道的參考。第二,提供時間刻度,可對不同時間段報道情況的梳理,用于對報道周期比較長的事件梳理報道情況。將支持主題監控功能,用于重要搜索記錄的保存,方便搜素結果的后續快速查看和專題制作。
(三)電子報瀏覽
為了適應日常使用人員的操作習慣,結構化的數據仍然支持數字報的瀏覽方式,在電子報瀏覽方式中可以按照日期和版次快速的進行報紙的瀏覽和文章的定位。也可以進行全局的搜索,列表瀏覽,樹結構瀏覽等。點擊報紙的星號,對一份報紙進行收藏。收藏后可在我的收藏中快速打開,不用再從資源瀏覽中尋找。在瀏覽報紙過程中,也可以對某一版面進行收藏,收藏后,可在我的收藏中快速查看。可以通過多方式對數字報進行瀏覽,結構化后的數據,為了適應日常使用人員的操作習慣,沿用了數字報的瀏覽方式,可根據刊期,版面,版次進行瀏覽,也可以進行全局的搜索,列表瀏覽,樹結構瀏覽等。
(四)系統功能
1、軟件基礎功能清單
實現報刊閱讀;
實現報刊搜索,快速定位報刊內容;
實現標題導航系統功能;
實現日歷導航系統功能;
實現電子報刊內容電子化,實現每一篇文章的熱點顯示、動畫效果;
原版PDF閱讀下載;
實現報刊評論、文章評論;
實現在線下載、在線投稿、友情鏈接管理功能;
實現對開版面(連版)顯示樣式;
實現數字報刊網站廣告管理;
總結:因涉及數據安全和版權保護的問題,我公司負責過多個報社的歷史報紙數據制作工作,有自己的核心競爭力,如您有需要,我公司將提供整套解決方案。歷史報刊數字化是一項尊重歷史、保護歷史資料、挖掘資料價值的工程,讓塵封的珍貴報刊通過現代信息技術以一種嶄新的面貌呈現在讀者面前,體現了社會責任和文化創新精神,保護與開發并存,讓歷史報刊重新面對公眾,為了解和研究中國近現代新聞發展歷史提供豐富的信息源泉。
聯系電話:18080664646 公司負責人: 陳先生