一、標準數字化的概念
文字識別,又稱為光學字符識別(英文名:Optical Character Recognition,簡稱OCR) , 其工作原理為通過電子設備(例如掃描儀或數碼相機等光學輸入設備)獲取紙張上的文字圖片信息,利用各種模式識別算法分析文字形態特征,判斷出漢字的標準編碼,并按通用格式存儲在文本文件中。由此可以看出, OCR是讓計算機認字,實現文字自動輸入。是一種快捷、省力、高效的文字輸入方法。針對標準文本加工的現狀與需求, 將OCR技術運用到標準文本加工領域,已經成為標準加工與標準信息服務的趨勢。
標準數字化是從研究、挖掘標準全文的潛在價值出發,采用計算機技術,將常見的語言文字(或圖形符號)轉化為能被計算機識別的數字符號,從而制成標準題錄數據庫和標準全文數據庫,用以揭示標準文獻信息資源的一項系統工作。
二、標準起草應注意的“線”(一)擴大標準檢索的范圍、豐富檢索內容。傳統標準信息檢索的方法和手段具有很大的局限性,尚處于初級搜索檢索階段,主要表現在:標準全文檢索缺失,仍停留在標準題錄的檢索。標準題錄只是標準全文的目錄,其承載的信息有限,而標準全文才是標準的主體,才是標準信息的主要承載者。標準全文檢索的缺失使標準服務效率無法實質提升。檢索方式上僅停留在簡單的分類檢索。如國家標準、國外標準、行業標準、地方標準和標準圖書等各大類的檢索,缺少二次擴展檢索。
依據對標準數字化轉化成果,配合開發標準相應的標準檢索系統,將擴大標準檢索的范圍、豐富檢索內容。
借助新的檢索手段,可以實現檢索智能化,可以對標準信息內容直接抽取。例如可在標準的前言、引言、范圍、規范性引用文件、術語等限定范圍內進行關鍵詞檢索和結果數據抽取,以及對標準文本中的圖形和表格進行檢索和結果數據抽取,實現了用戶對所需信息的智能提供,實現了傳統的信息檢索向高精度檢索、文本挖掘、知識發現等方向轉變。(二)提高標準加工的效率、保障標準數據的準確性目前,標準加工錄入的字段中,標準的英文名稱、適用范圍、起草單位、批準單位、出版單位、提出單位、歸口單位等字段均為手工錄入。由于傳統的數據加工模式是手工錄入,維護的字段又多,因此標準加工的效率較低:又因標準加工量大、人員少,未能實現數據校對后入庫,因此,數據錄入的準確性得不到保障。(三)為標準研究提供扎實的基礎運用PDF標準數字化轉化成果, 可以避免以上出現的準確性問題。原來這些英文名稱、適用范圍、起草單位、批準單位、出版單位、提出單位、歸口單位等需手工打字著錄的字段可以通過復制、粘貼完成,提高標準加工的效率,從而保障標準數據的及時性和準確性。
通過對標準文本數字化的轉化,可對標準信息資源的深層次加工,充分挖掘標準文獻資源內在附加值。借助標準文本數字化轉化的成果,可以進行標準立項前的查新;借助標準文本數字化轉化的成果,可以輕松、高效的進行標準之間技術指標的比對;借助標準文本數字化轉化的成果,可以通過具體指標的查詢,快速精確的對標準進行定位;借助標準文本數字化轉化的成果,可以對標準中強制性條款、關鍵性指標進行分析與研究。標準數字化建設將為標準研究的開展提供堅實的基礎。(轉自論文《標準數字化的初探》,作者:胡甌靜,江蘇省標準化研究院,特此聲明致謝)