TechDevelopment

技術開發

  為確保《文淵閣四庫全書電子版》在技術上的先進性、內容的權威性及功能的實用性,我們在整個開發過程當中,不斷進行測試,不斷改善,務求令產品在內容及功能方面都更切合用者的需要。

第一期開發工程:

1. 資料搜集

  待鎖定產品定位及對象後,我們便進入資料搜集的過程。參照四庫全書的書目結構,我們積極向學術界及圖書館界人士收集寶貴的意見,於97年12月制成軟件的原型(prototype),內含基本功能供人試用。藉著演示原型,我們更具體地了解用者對產品功能上的需求。

2. 程式編寫

  程式編寫隊伍根據搜集得來的資料於98年2月寫成軟件Alpha階段第一版,同時解決了軟件操作平台的問題。《文淵閣四庫全書電子版》所用的漢字估計超過3萬字,無論國標碼(GBK)或大五碼對於此龐大字庫均未能全面支援。最後我們決定以Unicode為基礎建立字符集,並使本產品能在中文(繁/簡體)、英文、日文、韓文的Win 98或Win NT4.0及以上的各種視窗平台運行,為海內外研究學者提供極大的方便。至98年5月軟件開發進入Beta版階段,各項功能更趨成熟。

3. 程式測試

  為了確保產品的專業性及質素,我們特於北京、上海及香港邀請了不少學者及研究人員測試本產品,每一階段所收集的意見都改進下一階段的產品質素,務求令產品無論在內容及功能方面更切合用者的需要。
 
4. 技術突破
奠基典籍電子化 擴充漢字字符集
   於Unicode/ISO10646的基礎上,建立3萬2千多字的漢字字符集,為中國典籍電子化奠下了良好的基石。

跨平台技術突破 
   本電子出版物採用了微軟公司的 Single Binary 跨平台技術,使本產品可以在中文(繁體/簡體)、英文、日文、韓文多種語言環境,視窗98、視窗2000、視窗NT4.0及視窗XP的各種平台運行。

人工智能技術 減少大量人工輸入工序
   《四庫全書》原文漢字逾七億,電子版以高速掃瞄器、圖形處理及光學字符識別技術﹝OCR﹞,作大規模的漢字輸入及校對,使輸入程序更快更準確。

建立龐大資料庫 有助查閱研究
   整個項目在開發過程中,建立了多個龐大的電子資料庫,再配合不同的檢索方法,讓用戶能夠快捷地查閱所需資料。
- 超過一百八十二萬條卷內標題
- 三千四百多條書目資料
- 近三千位著者資料
- 逾七億漢字的全文資料

5. 工程參與開發單位
迪威多媒體有限公司
- 負責多媒體程式設計、編輯及校對、企劃管理、技術支持及測試、客戶服務。

書同文電腦技術開發有限公司
- 負責多媒體程式設計及編寫、相關技術研究開發、卷內標題提取、編輯及校對、數據生產、質量管理、技術支持及測試。

清華大學計算機系
- 負責OCR引擎開發

北大方正電子有限公司
- 負責建立專用字庫

微軟公司(北京)研究開發中心
- 提供平台技術支援

 

第二期開發工程:

1. 全面數碼化
   在1999至2003年間,《文淵閣四庫全書電子版》推出多個版本,這些版本在進行內容數碼化時(第一期數碼化工程),因當時字庫字量的限制,部分內容只能以方格或原字圖像顯示,亦因技術的限制沒有把部分內容包括表格及年表等數碼化。第二期開發工程因應電腦技術的進步、市場及用戶的需求,再做升級版本,工程在2005年展開,首先進行內容的數碼化,包括貼圖字及書頁的全面數碼化。

2. 採用國際標準大字符集
   採用符合ISO/IEC 10646:2003 Unicode 4.1編碼的大字符集楷體字庫(約7萬字),包括新筆形(大陸地區用)及舊筆形(港台地區用)。利用新大字庫,將《四庫全書電子版》未數碼化的內容進行數碼化,使成為可檢索內容。並將原《四庫全書電子版》數據庫中全部Unicode:2000的編碼漢字,包括自定義區內的4,957個造字,轉換升級成Unicode:2003的漢字編碼,並與本工程所造約1萬個漢字的字形風格統一。新大字庫的總字量逾82,000字。

3. 技術突破
建立龐大字符集
   由於大字庫的字量超過微軟視窗操作平臺可支援的字數限制,即65,536個字,經研究採用字庫連結技術打破操作平臺的局限。

表格及年表數碼化
   《四庫全書》包含很多表格及年表,各有不同版式,本工程將傳統光學字符識別技術﹝OCR﹞提升,將表格及年表內容進行數碼化及版式還原。

4. 工程參與開發單位

宜高科技創業有限公司 - 負責工程策劃及管理
Magically Asia Limited - 負責發佈系統工程
台灣大鐸股份有限公司 - 負責搜索引擎工程
北京創新力博數碼科技有限公司 - 負責內容數碼化工程
北大方正電子有限公司 - 負責建立專用字庫