(央視財經(jīng)《天下財經(jīng)》)在日本,古代文獻大量使用了草書和行書這樣的手寫體來書寫日語假名和漢字,要看懂不容易。而AI技術(shù),也就是人工智能系統(tǒng)的開發(fā)能夠幫助人們快速識讀。
包括手抄本和印刷本在內(nèi),日本流傳至今的古代手寫體文獻據(jù)估算達到數(shù)億件,但由于能夠看懂手寫體的專業(yè)人才極為有限,所以導致大量史料尚未完成識讀整理工作。最近,日本信息系統(tǒng)研究機構(gòu)的一個研究小組開發(fā)了一套人工智能系統(tǒng),通過事先學習已由專家整理完成的44部文獻,共計100萬字的手寫體寫法,目前該系統(tǒng)已基本實現(xiàn)了準確高效地識讀古代文獻。
財經(jīng)頻道特約記者王翔:我們已經(jīng)把日本古典文學名著《源氏物語》掃描進了電腦,只需要按一下按鈕,馬上就會在屏幕上看到人工智能解讀的結(jié)果。像這樣一頁手寫體文獻,如果由人來完成的話,即便是最熟練的專家也需要10分鐘以上,不過人工智能只花了不到3秒鐘時間。
該研究小組共有3名成員,其中一名是來自泰國的塔琳 卡努瓦。11年前,塔琳來東京留學攻讀日本古典文學,經(jīng)常需要閱讀原始文獻。連日本學生都難以辨識的古代手寫體文字,對一名來自漢字文化圈以外的留學生來說,無異于天書。這樣的經(jīng)歷促使塔琳一同加入了這個研究小組,用半年時間開發(fā)了這套能夠自動識別手寫體文獻的人工智能系統(tǒng)。
日本信息系統(tǒng)研究機構(gòu)研究員塔琳 卡努瓦:這套系統(tǒng)基本覆蓋了常用漢字,可以給日本文學研究者提供方便。
據(jù)研究小組負責人介紹,這套系統(tǒng)識別手寫體文字的準確率已經(jīng)達到90%以上,研究小組今后將繼續(xù)擴大供人工智能系統(tǒng)用于學習的數(shù)據(jù)庫范圍,并改進程序算法,來進一步提高系統(tǒng)識別文字的準確率。
日本信息系統(tǒng)研究機構(gòu)項目負責人北本朝展:這套系統(tǒng)也適用于漢語文獻,部分文字的手寫體樣本太少,增加樣本數(shù)量是今后改善的重點。