合合信息智能文字識別技術(shù)“牽手”傳統(tǒng)典籍研究 開啟古彝文“傳統(tǒng)的新生命周期

彝文是云南、貴州、四川等地的彝族人使用的文字,而“古彝文”專指在民間流通使用的原生態(tài)彝文。古彝文傳承至今已有數(shù)千年歷史,是世界上最古老的文字之一。根據(jù)《滇川黔桂彝文字集》,目前記錄在冊的古彝文多達87046個。在中國西南多家高校的共同努力下,規(guī)范和通用彝文的數(shù)字化工作取得了重要突破。為了幫助建立起完善的古彝文數(shù)據(jù)庫和翻譯系統(tǒng),極大提升研究效率,合合信息與上海大學(xué)社會學(xué)院正式簽署校企合作協(xié)議,將智能文字識別技術(shù)引用到古彝文研究工作,并由此建立起精確的彝文古籍電子數(shù)據(jù)庫,在古彝文研究領(lǐng)域?qū)儆谑讋?chuàng)。

畢節(jié)市彝文文獻翻譯研究中心展示漢譯書稿

當(dāng)前非母語研究者在翻譯古彝文時,通常需要在母語者的幫助下記音,再用漢語逐字直譯,最后采用漢語對整句話進行意譯。由于古彝文尚未取得預(yù)留的Unicode編碼區(qū)段,數(shù)字化工程還處于起步階段,所以在印刷出版時,需由一位彝文繕寫員先將彝文字和國際編碼抄寫在書頁的左側(cè),再將已輸入電腦的漢文譯文打印、剪切后粘貼在相應(yīng)彝文字的右側(cè),形成目前常見的“四行體”彝漢文對譯,過程十分繁瑣。

由于古彝文與漢字并非一 一對應(yīng)關(guān)系,存在大量的異體字、變體字。在相對規(guī)范的漢譯本彝文典籍中就有至少15%的變體字,原稿中只會更多;每個字的異體寫法少則2-3個,多則幾十種。若想要找到某個字在一本古籍里的全部樣例,手動查閱需要耗費一整天。不僅如此,除了頁面殘損、字形復(fù)雜、字跡模糊等古籍識別中常遇到的問題外,彝文古籍還常出現(xiàn)加字、替字、整句倒置、文字方向不統(tǒng)一等現(xiàn)象,給文字定位造成挑戰(zhàn)。再加上古彝文從未經(jīng)過統(tǒng)一,異體字、變體字眾多,給古彝文數(shù)字化團隊帶來非常大的挑戰(zhàn)。

此次上海大學(xué)社會學(xué)院與合合信息合作,將通過合合信息基于“AI+OCR”融合下的智能文字識別技術(shù),來解決解決古彝文識別的版式檢測、圖像處理和文字識別的難題,通過對大量的彝文古籍文字深度學(xué)習(xí)和訓(xùn)練,智能文字識別技術(shù)的效率及準(zhǔn)確性也會越高,將更快推動古彝文研究進展。

本次合合信息與上海大學(xué)共同研究的《西南彝志》共計26卷,有“彝族歷史文化的百科全書”之譽,對研究彝族歷史、經(jīng)濟、文化十分重要。古彝文數(shù)字化項目發(fā)起人、上海大學(xué)人類學(xué)民俗學(xué)研究所講師邵文苑表示,“傳統(tǒng)也和人一樣有生老病死的過程,并和人一樣有通過后代延續(xù)‘生命’的能力,這種理論被稱為‘傳統(tǒng)的生命周期’。”他同時表示,智能文字識別技術(shù)“牽手”傳統(tǒng)典籍研究,會是古彝文“傳統(tǒng)的新生命周期”的開始。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )