梵蒂岡機(jī)密檔案館(Vatican Secret Archives)被列為世界十大禁地之一,它是羅馬教皇的檔案保管機(jī)構(gòu),也是歐洲教會中收藏檔案最豐富,最古老的檔案館。
其珍藏的許多文件從未轉(zhuǎn)錄,即便教堂檔案員也對其中隱藏的秘密一無所知。然而,機(jī)器視覺系統(tǒng)將會揭開中世紀(jì)文本的神秘面紗。
梵蒂岡機(jī)密檔案館頗為傳奇。據(jù)稱,該館保存的往屆教皇的私人信件和其他文件,不少內(nèi)容可追溯至公元8世紀(jì), 排起來可延綿85公里長。
館內(nèi)警戒森嚴(yán),自1881年起,學(xué)者們接觸到的文件極為有限,但其中的信息量卻蔚為可觀。
舉個例子,一張長達(dá)60米的羊皮紙上記滿了對法國圣殿騎士的審判供詞,這場審判自1307年伊始,持續(xù)數(shù)年。這些信件中,有米開朗基羅的手稿,有國王亨利八世請求廢除婚姻的申請書,還有蘇格蘭女王瑪麗被斬首前的說情信。
此外,檔案中還包含距今較短的通信文件,比如美國南北戰(zhàn)爭時期,亞伯拉罕·林肯和杰斐遜·戴維斯分別來信,試圖說服教皇庇護(hù)九世支持各自陣營——北方聯(lián)邦和南部邦聯(lián)。還有二戰(zhàn)期間,教皇與納粹政權(quán)的往來信件都從未出版。事實上,1939年后的所有檔案完全對外保密。
雖然這些文件禁止出版,但檔案館設(shè)有影像備份及檔案保護(hù)工作室。與其他許多歷史檔案館一樣,他們已開始影像備份文件,供學(xué)者深入研究。
但檔案存量過于龐大,光靠人工抄錄備份,根本無法完成。那么,機(jī)器視覺技術(shù)是否能夠起作用?
幸運的是意大利羅馬第三大學(xué)的Donatella Firmani及其同事啟動了“In Codice Ratio(‘編碼系統(tǒng)’的拉丁文)”項目,旨在開發(fā)能夠自動轉(zhuǎn)錄梵蒂岡機(jī)密文件(名為Vatican Registers)的系統(tǒng)。
該語料庫收錄了13世紀(jì)的18,000頁官方信件,覆蓋內(nèi)容極廣,從天主教到國王、王后,從政治到宗教,橫貫歐洲各領(lǐng)域。Firmani及其團(tuán)隊表示:“這些文件此前從未轉(zhuǎn)錄,因此,歷史意義可謂空前巨大?!?/p>
中世紀(jì)文本的特殊性給機(jī)器視覺技術(shù)帶來了諸多挑戰(zhàn)。由于手稿字跡風(fēng)格各異,存在連筆(將相鄰字母連成一筆書寫)和特殊縮略語,因此傳統(tǒng)的視覺識別算法無法勝任轉(zhuǎn)錄工作。
為解決這一難題,學(xué)者們研發(fā)了識別整個單詞(不僅僅是字母)的計算機(jī)視覺系統(tǒng)。然而效果仍不理想。大多數(shù)單詞在長篇文件中只出現(xiàn)過幾次,所以很難創(chuàng)建滿足機(jī)器學(xué)習(xí)需求的數(shù)據(jù)集。
如今,F(xiàn)irmani及其團(tuán)隊發(fā)明了訓(xùn)練文字視覺識別系統(tǒng)的新方法:將單詞拆分為筆劃,再像拼圖一樣將筆劃組合起來。他們表示:“我們想開發(fā)一個能夠轉(zhuǎn)錄盡可能多手稿的成熟系統(tǒng)?!?/p>
系統(tǒng)將單詞拆分為筆劃后,再試圖將筆劃組合成字母,分析所有可能的排列組合方式,最終排除所有不符合語法的組合。
例如,通??蓪⒐P劃組合為“iii”和“m”,因語法錯誤排除前者。同樣的筆劃組合還有“in”或“ni”,系統(tǒng)需進(jìn)一步研究整個單詞及其所處語境,再作出選擇。
Firmani團(tuán)隊首先創(chuàng)建了一個數(shù)據(jù)集,訓(xùn)練基于神經(jīng)網(wǎng)絡(luò)的計算機(jī)視覺系統(tǒng)。
該數(shù)據(jù)集需要進(jìn)行標(biāo)記處理。因此,視覺系統(tǒng)可學(xué)習(xí)筆劃的排列方式與可能字母的映射。
他們將數(shù)據(jù)標(biāo)記外包出去,將拼圖似的單詞拆分為模式識別問題(如拼圖式驗證碼)呈現(xiàn)給120所高校學(xué)生,讓他們數(shù)小時內(nèi)共同人工標(biāo)注包含15,000個單詞的數(shù)據(jù)集。
標(biāo)注結(jié)果十分理想。Firmani團(tuán)隊稱:“我們能夠準(zhǔn)確轉(zhuǎn)錄數(shù)據(jù)集中65%的字母圖像?!?/p>
顯然,這一成果對轉(zhuǎn)錄中世紀(jì)文章和歷史學(xué)家的研究而言意義非凡。但還有更多難題需要攻克。例如,小寫字母的轉(zhuǎn)錄問題仍然存在,因此下一步的關(guān)鍵是擴(kuò)大詞匯量,將大寫字母及中世紀(jì)文本中的縮略語納入數(shù)據(jù)集。
梵蒂岡機(jī)密檔案館將如何利用這一科技尚不得而知,梵蒂岡文件(Vatican Registers)被轉(zhuǎn)錄后是否會公之于眾也無人知曉。
但即使文件未能出版,F(xiàn)irmani團(tuán)隊開發(fā)的前沿技術(shù)也能幫助學(xué)者們進(jìn)行相關(guān)領(lǐng)域的深入研究。例如,可利用單詞、詞組頻率及其隨時間的變化等數(shù)據(jù)展開歷史文件研究??勺鳛榉治鰵v史文化的重要切入點。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )