第 85 期 2006年05月號 CBETA 發行

CBETA首頁 電子報首頁 +電子報信箱



編者的話

各位親愛的讀者,您好:

前期提到 CBETA 配合相關單位進行的「古經錄及現藏目錄」專案,該專案第一年度已圓滿完成。

此計畫是以 CBETA 現有的數位典藏為基礎,以歷代佛經版本經錄、《法寶義林》等建構數位文獻資料,配合當代資訊科技與 XML TEI Markup 等標準規範進行內容開發,建構佛典知識管理系統,以提綱挈領掌握浩瀚佛典整體內容,服務學界與大眾。

本期「一步一腳印——CBETA 經驗分享」將為大家詳談此專案特色與未來計劃。

祝 吉祥如意!

電子報編輯 敬上


最新消息

印順法師佛學著作集網路測試版上線,請大家踴躍試用。

網址是: http://www.ksana.tw/ (如果無法連線,請用 http://220.132.77.193 ) ,點選 「印順法師佛學著作集全文檢索 」

關於此網路測試版的任何問題及建議,請到此論壇發表,謝謝。
http://groups.google.com.tw/group/accelon


各組最新進度

◎輸校組

  • 卍續藏常錯字檢查:X16-17
  • 卍續藏簡單標記Ⅰ:X14-16
  • 卍續藏簡單標記Ⅱ:X14-16
  • 卍續藏句讀:X56n0930.txt
  • 網路校對發出:B15
  • 網路校對完成:B16, B20, B31

◎研發組

  • 4/24 cvs.cbeta 安裝 Fedora Core 5
  • sm=>xml: X12, X15, X14, X16, 修改 basicx. 
  • 修改 xml2txt.bat
    • <lg type="note\d"> 單行小字偈頌, 雙行小字偈頌
    • X05n0231 PDA 版 科文
  • 試用 JBuilder 2006, Eclipse 3.2

◎標記組

  • 大正藏
  1. 修訂 經文用字 & XML標記
  2. 雙圈◎ 改成 <anchor type="◎"/> 標記
  3. 協助經錄作業:古經錄、作譯者同名、朝代資料庫、佛教藏對應經號 等
  • 卍續藏
  1. X12 XML 標記作業、X14n288 搬移眉批注解文字作業完成。
  2. XML 夾註偈頌新標記修改完成
  3. 編輯 X01 CBETA經錄 完成。
  4. 協助電子報之 千字文 句讀分段完成

◎文字組

◎網資組

  • 經錄專案初步結案
  • 研究 unicode 程式設計, 目前在試檔案比對程式。

◎新標專案

  • 完成:7 經,共 9 卷
  • 收回:6 經,共 13 卷
  • 發出:4 經,共 157 卷



一步一腳印 -- CBETA 經驗分享

經錄資料庫

大約在去年這個時間,我們與相關單位開始了一個經錄的整理計畫,CBETA總幹事杜正民教授也常告訴我們,經錄整理在藏經集成是一個很重要的工作,藉由經錄的整理,才能完整地規劃出收錄大藏經的資料。在過去台灣版中華大藏經在規劃時,蔡運辰先生也整理了一份《二十五種藏經目錄對照考釋》,這些資料都是非常重要且可貴的,它可以讓我們立刻掌握藏經的數量與全貌,進而規劃新版大藏經的收錄內容。

CBETA 在第一個五年計劃中,已將大正藏中的印度與中國撰述部電子化,第二階段的卍續藏電子化也穩健地進行中。此時開始經錄整理,無疑地可以為下一階段要收錄的佛典做出詳盡的安排,也提供一個良好的工具,讓大眾得以查詢藏經的相關訊息。

經錄整理是一個二年的計劃,在第一年計劃結案時,我們提出了一個基本的資料庫查詢介面,有興趣的使用者可前往測試,其網址為  http://jinglu.cbeta.org。我們期盼在明年的此時,可以把這個架構完整地呈現給大眾。

雖然目前只是第一階段的完成,資料尚屬粗糙,有待再加強相關資料與校對,但是它也有許多新的特色,在此做一個簡單的介紹。

最重要的特點,是我們整理了同名資料庫,包含經名同名,朝代同名與譯者同名三種資料庫。

例如,唐代譯師「善無畏」,他是東印度烏荼國人,本名音譯作「戍婆揭羅僧訶」、「輸波迦羅」,意譯作「淨師子」,在各朝大藏經整理的資料中,並不一定都是記錄同一個名字。當我們想知道這位譯師的所有譯作時,查詢作譯者欄,字串輸入「善無畏」,結果除了查到署名為「善無畏」的譯作,同時也查到署名為「輸波迦羅」、「輸婆迦羅」的譯作。改輸入「淨師子」,查詢結果一樣,包括了「善無畏」、「輸波迦羅」、「輸婆迦羅」的所有譯作。這裡主要是「同名資料庫」中「善無畏=淨師子=輸婆迦羅=輸波迦羅」這筆資料發揮了作用。

經名亦然,以大正藏 532 經為例,此經名為《私呵昧經》,又名為《菩薩道樹經》《道樹經》,當我們在資料庫中有此記錄時,不論查詢何者,都可以找到同樣的資料。

中國歷朝也有許多一朝多名的問題,例如「前秦」=「符秦」,「後秦」=「姚秦」,「西秦」=「乞伏秦」,在我們以前做的查詢系統中,查詢「前秦」可能找不到「符秦」,這都讓查詢的有效範圍減少,只要有同名資料庫不斷加入新資料,就可以讓查詢的結果更為精確。

此部份詳細的相關技術,可參考此網頁的說明:http://jinglu.cbeta.org/tech/database.htm

另一個特色是我們嘗試解決漢字異體字造成的問題。

有一種問題是因為 Big5 系統字所缺的字,造成我們習慣用系統的通用字來取代。例如「」習慣被寫成「」。另一種是譯音問題造成混用的習慣,例如「波羅蜜」也常被寫成「波羅密」,或是「」這類常被混用的字也會造成查詢範圍減少。

這些問題並不單純,但它們卻影響到許多系統,不只是佛經目錄,包含佛典全文檢索都會有此類問題,因此這些也被 CBETA 列入要嘗試解決的項目。

第三個特色是擴大經錄的相關資料。

目前我們做了一些嘗試,例如 CBETA 已有電子佛典的經文,目前已能直接連結線上閱讀。而高麗大藏經研究所若有提供的經文,我們也連結過去。原本我們也打算連結佛典目錄的原文影印,這樣可讓使用者在查詢的同時,得以查閱原文圖檔。若發現有錯誤,還可以回報給我們,讓大家一起來提昇資料的正確度。但因為某些版權問題,我們目前只提供了房山石經的目錄影本,讓大家可查詢其原文圖檔。

我們也會在未來連結其他語文的經錄,諸如梵文、藏文、巴利文等佛典相關資料,讓經錄資料庫得以與國際性研究接軌。

以上是此經錄資料庫的一些特色,若有任何建議與指教,歡迎與我們聯絡。


 


回覆讀者來函

讀者來函:

師兄 師姊 阿密佗佛 :
想請教有關佛學文獻的查詢問題。

如文獻(CBETA, T09, no. 278, p.444, b13-20)

想請問這各個部份是代表什麼意思。
謝謝您了
感恩

CBETA 回覆:

您好:

它們分別表示的意思是:


CBETA:CBETA 電子佛典
T09      :大正藏第九冊
no. 278:經號第 278 經
p.444   :第 444 頁
b13-20 :中欄第 13 行至第 20 行

更詳細的介紹請參考此網頁:

http://www.cbeta.org/data-format/zrx.htm

若有任何問題,歡迎來函討論。


交流園地
  歡迎建議與指教!來函請寄至這裡

本會電子報之文章著作權均歸原著作者所有,轉載時請全文照登,謝謝。
website: http://www.cbeta.org/      email: service@cbeta.org
11246 台北市北投區光明路276號4樓
TEL:(02)2893-2133 FAX:(02)2893-0043