首頁>書畫·現(xiàn)場>訊息訊息
“蒙古語語料庫”二期工程:填補(bǔ)互聯(lián)網(wǎng)上無蒙古文文獻(xiàn)空白
內(nèi)蒙古自治區(qū)社會科學(xué)院“蒙古語語料庫”首席專家巴特爾26日向中新網(wǎng)記者介紹,正在實(shí)施的“蒙古語語料庫”二期工程(簡稱二期工程)總字?jǐn)?shù)將達(dá)到1.2億詞,目前已完成佛教重要典籍《甘珠爾經(jīng)》的錄入工作。其最大意義在于“填補(bǔ)互聯(lián)網(wǎng)上無蒙古文文獻(xiàn)的空白,最終能使蒙古學(xué)學(xué)者有文獻(xiàn)可用”。
巴特爾對記者透露,二期工程“文獻(xiàn)語料庫”是“掃描文件、電子文檔、拉丁文轉(zhuǎn)寫”三位一體的大型蒙古文文獻(xiàn)語料庫。
巴特爾表示,二期工程語料庫有三大特點(diǎn):第一、窮盡式收集自蒙古文第一份文獻(xiàn)成吉思汗碑以及《蒙古秘史》等中世紀(jì)文獻(xiàn),好中選優(yōu)《黃金史》《甘珠爾經(jīng)》《御制清文鑒》等木刻板文獻(xiàn),均衡選錄社會科學(xué)、自然科學(xué)、報(bào)紙、政治、法律、文學(xué)、醫(yī)學(xué)、農(nóng)牧業(yè)、應(yīng)用、口語等10大類文獻(xiàn);第二、遵循文獻(xiàn)學(xué)原則,即每份文獻(xiàn)提供原圖、錄入文件、拉丁文標(biāo)音三種形式;第三、語料庫實(shí)現(xiàn)免費(fèi)在線網(wǎng)絡(luò)查詢檢索。
巴特爾告訴記者,二期工程自2015年實(shí)施近三年來,截至目前已完成13世紀(jì)—16世紀(jì)中世紀(jì)文獻(xiàn)、17世紀(jì)—18世紀(jì)近代文獻(xiàn)(大部分)、19世紀(jì)現(xiàn)代文獻(xiàn)部分和20世紀(jì)—21世紀(jì)當(dāng)代文獻(xiàn)部分,約完成8000萬字語料的錄入校對工作。
“蒙古語語料庫建設(shè)工程”是“一次規(guī)劃,多年實(shí)施”的中國首個(gè)蒙古語、達(dá)斡爾語、鄂溫克語、鄂倫春語大型綜合性語料庫。它涵蓋言語語料和文獻(xiàn)語料兩部分,總字?jǐn)?shù)將達(dá)到2億詞。
2005年“蒙古語語料庫建設(shè)工程”確立為內(nèi)蒙古自治區(qū)民族文化大區(qū)建設(shè)重點(diǎn)項(xiàng)目,設(shè)計(jì)20年完成。一期工程言語語料庫(2005-2014)已于2014年11月驗(yàn)收,二期工程文獻(xiàn)語料庫(2015-2024)正在實(shí)施。
巴特爾表示,一期工程言語語料庫(8000小時(shí)語料)旨在大規(guī)模搜集真實(shí)言語語料,重點(diǎn)在中國八省自治區(qū)、蒙古國四省一市、俄羅斯布里亞特共和國和卡爾梅克共和國境內(nèi)97個(gè)點(diǎn)采訪了6725人,搜集蒙古語、達(dá)斡爾語、鄂溫克語、鄂倫春語自然口語語料4192小時(shí)(相當(dāng)于4000多萬詞)。它是已建成的世界上最大的蒙古語自然口語語料庫。同時(shí)還完成了4000多小時(shí)的書面語語料庫。兩項(xiàng)合計(jì)“蒙古語語料庫建設(shè)工程”一期工程共完成了8000多小時(shí)的言語語料。
在巴特爾看來,二期工程的實(shí)施,不僅對蒙古語等少數(shù)民族語言(文字)的規(guī)范化、信息化和內(nèi)蒙古語言生活的健康和諧發(fā)展,具有重要的理論意義,也對保護(hù)、傳承和開發(fā)、利用民族語言文化遺產(chǎn),維護(hù)中國語言文化安全具有重要的現(xiàn)實(shí)意義。(完)
編輯:楊嵐
關(guān)鍵詞:文獻(xiàn) 二期工程 語料庫