標準數字化是從研究、挖掘標準全文的潛在價值出發,采用計算機技術,將常見的語言文字(或圖形符號)轉化為能被計算機識別的數字符號,從而制成標準題錄數據庫和標準全文數據庫,用以揭示標準文獻信息資源的一項系統工作。
二、標準起草應注意的“線”(一)擴大標準檢索的范圍、豐富檢索內容。傳統標準信息檢索的方法和手段具有很大的局限性,尚處于初級搜索檢索階段,主要表現在:標準全文檢索缺失,仍停留在標準題錄的檢索。標準題錄只是標準全文的目錄,其承載的信息有限,而標準全文才是標準的主體,才是標準信息的主要承載者。標準全文檢索的缺失使標準服務效率無法實質提升。檢索方式上僅停留在簡單的分類檢索。如國家標準、國外標準、行業標準、地方標準和標準圖書等各大類的檢索,缺少二次擴展檢索。依據對標準數字化轉化成果,配合開發標準相應的標準檢索系統,將擴大標準檢索的范圍、豐富檢索內容。
借助新的檢索手段,可以實現檢索智能化,可以對標準信息內容直接抽取。例如可在標準的前言、引言、范圍、規范性引用文件、術語等限定范圍內進行關鍵詞檢索和結果數據抽取,以及對標準文本中的圖形和表格進行檢索和結果數據抽取,實現了用戶對所需信息的智能提供,實現了傳統的信息檢索向高精度檢索、文本挖掘、知識發現等方向轉變。(二)提高標準加工的效率、保障標準數據的準確性。目前,標準加工錄入的字段中,標準的英文名稱、適用范圍、起草單位、批準單位、出版單位、提出單位、歸口單位等字段均為手工錄入。由于傳統的數據加工模式是手工錄入,維護的字段又多,因此標準加工的效率較低:又因標準加工量大、人員少,未能實現數據校對后入庫,因此,數據錄入的準確性得不到保障。(三)為標準研究提供扎實的基礎。運用PDF標準數字化轉化成果, 可以避免以上出現的準確性問題。原來這些英文名稱、適用范圍、起草單位、批準單位、出版單位、提出單位、歸口單位等需手工打字著錄的字段可以通過復制、粘貼完成,提高標準加工的效率,從而保障標準數據的及時性和準確性。通過對標準文本數字化的轉化,可對標準信息資源的深層次加工,充分挖掘標準文獻資源內在附加值。借助標準文本數字化轉化的成果,可以進行標準立項前的查新;借助標準文本數字化轉化的成果,可以輕松、高效的進行標準之間技術指標的比對;借助標準文本數字化轉化的成果,可以通過具體指標的查詢,快速精確的對標準進行定位;借助標準文本數字化轉化的成果,可以對標準中強制性條款、關鍵性指標進行分析與研究。標準數字化建設將為標準研究的開展提供堅實的基礎。
轉自論文《標準數字化的初探》,作者:胡甌靜,江蘇省標準化研究院,