“江湖(a kind of social enviornment exsits politics and tactics,一種存在政治和詭計(jì)的社會(huì)環(huán)境)這個(gè)詞,是中國(guó)文化中一種獨(dú)特的表達(dá),用機(jī)器將它正確地翻譯成英文是很難的,它一般都會(huì)按照字面意義直接翻譯,機(jī)器有可能會(huì)認(rèn)為那是江西省和湖南省(the province of Jiangxi and Hunan)或者江和湖(rivers and lakes)的意思?!闭f(shuō)起AI同傳場(chǎng)景中涉及的一個(gè)關(guān)鍵技術(shù)——機(jī)器翻譯存在的問(wèn)題,微軟首位華人“全球技術(shù)院士”、首席語(yǔ)音科學(xué)家黃學(xué)東近日這樣形象地向《中國(guó)經(jīng)營(yíng)報(bào)》記者舉例表示。
事實(shí)上,AI同傳場(chǎng)景中,機(jī)器翻譯的問(wèn)題還不僅僅是上文所提及的。并且,在該場(chǎng)景牽涉的另兩項(xiàng)技術(shù)——語(yǔ)音識(shí)別和語(yǔ)音合成中,也存在一些問(wèn)題。
此外,通過(guò)與同傳行業(yè)人士以及業(yè)內(nèi)專(zhuān)業(yè)人士的交流,本報(bào)記者初步了解到,在AI技術(shù)運(yùn)用到同傳的實(shí)際應(yīng)用場(chǎng)景中,當(dāng)前是否真的能為人工同傳的工作提供實(shí)質(zhì)性幫助,或也值得關(guān)注。
概念上的厘清和界定
近日,在接受記者采訪(fǎng)的一些專(zhuān)業(yè)人士看來(lái),同傳本來(lái)指的是同聲傳譯,也就是說(shuō)話(huà)者的源語(yǔ)言發(fā)出的聲音與人工同傳人員將這種語(yǔ)言轉(zhuǎn)譯為另一種語(yǔ)言,口譯出來(lái)的聲音基本同步。在延時(shí)時(shí)長(zhǎng)上,它對(duì)譯者有很?chē)?yán)格的要求,這也是同聲傳譯與其他普通形式的翻譯的一個(gè)很重要的區(qū)別。AI同傳是機(jī)器翻譯的一個(gè)具體應(yīng)用任務(wù)。
科大訊飛方面告訴本報(bào)記者:“目前AI同傳的概念更傾向于理解為人機(jī)耦合,即同傳和機(jī)器的配合。”
在AI技術(shù)模擬人工同傳的做法、滲透到該行業(yè)的過(guò)程中,主要運(yùn)用了上文提及的語(yǔ)音識(shí)別、機(jī)器翻譯和語(yǔ)音合成這三種技術(shù)。
一些受訪(fǎng)人士認(rèn)為,實(shí)際的應(yīng)用場(chǎng)景中,通常會(huì)看到只有機(jī)器識(shí)別講者聲音并轉(zhuǎn)錄為文本、然后機(jī)器實(shí)時(shí)地將這種文本翻譯為目標(biāo)語(yǔ)言文本的形式,顯示在講者PPT旁邊的大屏幕上。雖然沒(méi)有最后一步,但完成了最關(guān)鍵、最有技術(shù)難度的兩個(gè)步驟,所以某種程度上,這也可以算是一種廣義上的機(jī)器同傳的表現(xiàn)形式。
京東集團(tuán)AI事業(yè)部副總裁、深度學(xué)習(xí)及語(yǔ)音語(yǔ)言實(shí)驗(yàn)室主任何曉冬告訴本報(bào)記者:“這基本上也可以算作是同傳,只是最后聲音沒(méi)放出來(lái)?!?/span>
“AI同傳到文本翻譯這一步,后面接一個(gè)語(yǔ)音合成系統(tǒng)就可以輸出語(yǔ)音。”來(lái)自中國(guó)科學(xué)院自動(dòng)化研究所下屬的中科凡語(yǔ)公司的一名專(zhuān)業(yè)人士向本報(bào)記者這樣表示。
何曉冬認(rèn)為:“機(jī)器翻譯的結(jié)果至于說(shuō)是以文本形式顯示在屏幕上,還是用語(yǔ)音合成的技術(shù),以聲音的形式輸送到耳朵里,這個(gè)問(wèn)題其實(shí)倒不是那么大,因?yàn)檎Z(yǔ)音合成現(xiàn)在還是比較成熟的,是這三種技術(shù)中比較容易控制的。”
AI同傳場(chǎng)景依舊面臨的挑戰(zhàn)
與人工同傳的工作類(lèi)似,運(yùn)用AI技術(shù)進(jìn)行廣義上的機(jī)器同傳時(shí),首先要對(duì)說(shuō)話(huà)者的聲音進(jìn)行語(yǔ)音識(shí)別。這是第一步,甚至也可以說(shuō)是最關(guān)鍵的步驟之一,因?yàn)槿绻麢C(jī)器不能聽(tīng)清講者在說(shuō)些什么,后面的翻譯結(jié)果可想而知。
在語(yǔ)音識(shí)別環(huán)節(jié),近日,來(lái)自全球一家世界500強(qiáng)科技公司的專(zhuān)業(yè)人士在接受本報(bào)記者采訪(fǎng)時(shí)稱(chēng):“之前參加過(guò)一些活動(dòng),看到配用的機(jī)器同傳系統(tǒng)一旦碰到co-mixing(講者演講中出現(xiàn)中英文混雜的情況)的時(shí)候,就會(huì)出現(xiàn)一些問(wèn)題?!?/span>
該人士補(bǔ)充道:“基本上現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)都是在單語(yǔ)種上進(jìn)行優(yōu)化的,機(jī)器翻譯現(xiàn)在的訓(xùn)練數(shù)據(jù)或者訓(xùn)練語(yǔ)料當(dāng)中,co-mixing出現(xiàn)的比例其實(shí)并不高,它對(duì)目前的翻譯系統(tǒng)的訓(xùn)練可能并沒(méi)有產(chǎn)生什么影響,所以目前碰到co-mixing或者是co-switching(中英文編碼轉(zhuǎn)換,指的就是多種不同的語(yǔ)言結(jié)合在一起的時(shí)候)這種現(xiàn)象時(shí),機(jī)器處理得并不好?!?/span>
黃學(xué)東也向記者表示,因?yàn)椤耙话愕腜C麥克風(fēng)遠(yuǎn)場(chǎng)不是很好”,微軟具有語(yǔ)音識(shí)別和實(shí)時(shí)機(jī)器翻譯功能的PPT當(dāng)前也面臨著“需要把麥克風(fēng)遠(yuǎn)場(chǎng)交互做得更好”的挑戰(zhàn)。
而除了上述語(yǔ)音識(shí)別方面的問(wèn)題,對(duì)于復(fù)雜場(chǎng)景、嘈雜環(huán)境中的語(yǔ)音識(shí)別,以及方言、嚴(yán)重的口音、口語(yǔ)等的語(yǔ)音識(shí)別,AI也依然面臨挑戰(zhàn)。
此外,在最關(guān)鍵的機(jī)器翻譯環(huán)節(jié),除了文章開(kāi)頭即提及的不能根據(jù)上下文語(yǔ)境進(jìn)行精準(zhǔn)翻譯、只能從字面直接的意義去理解外,機(jī)器同傳翻譯對(duì)詩(shī)歌、抒情散文等的翻譯,與人工同傳相比仍舊還有距離,還難以達(dá)到語(yǔ)言翻譯追求的“雅”的境界。
近日,搜狗語(yǔ)音交互技術(shù)中心高級(jí)總監(jiān)陳偉在接受記者采訪(fǎng)時(shí)稱(chēng):“詩(shī)歌的詞和詞之間的對(duì)應(yīng)關(guān)系很弱,機(jī)器如果直接按照詩(shī)歌里面說(shuō)的,把它轉(zhuǎn)化成白話(huà)文去翻譯的話(huà),是反映不出意境的。所以詩(shī)歌翻譯上,目前如果真的要靠模型的方式來(lái)做,距離人工還有很大差距。”科大訊飛方面也對(duì)本報(bào)記者表示:“后續(xù)在整體識(shí)別翻譯的準(zhǔn)確度和流暢度上仍有進(jìn)步空間,要達(dá)到標(biāo)準(zhǔn)的‘信達(dá)雅’還有一段路要走?!?/span>
何曉冬還向記者提到了同傳場(chǎng)景中機(jī)器翻譯的一個(gè)很重要的問(wèn)題:“機(jī)器需要去判斷什么時(shí)候出翻譯,很多時(shí)候要等著聽(tīng)到后面的內(nèi)容才知道前面該怎么翻,但因?yàn)槭峭瑐鳎砸膊荒艿忍?,這時(shí)候就需要做一個(gè)決策,是等下去損失用戶(hù)體驗(yàn),還是先把前面的部分翻譯出來(lái)?!?/span>
但這樣同樣會(huì)面臨一個(gè)問(wèn)題。他以“美國(guó)第42屆新當(dāng)選的總統(tǒng)特朗普和安倍晉三在某地方會(huì)晤”的中英翻譯為例補(bǔ)充提到,這是一句較長(zhǎng)的話(huà),中英文語(yǔ)句對(duì)主謂賓的表達(dá)順序不同,在翻譯成英文的過(guò)程中,如果譯者一直等到后面的關(guān)鍵詞“會(huì)晤”出現(xiàn),就會(huì)出現(xiàn)延時(shí)長(zhǎng)的問(wèn)題,但如果為了顧及實(shí)時(shí)性趕緊翻譯,甚至有可能會(huì)翻錯(cuò)。
“因?yàn)樗锌赡懿皇恰畷?huì)晤’,而是別的動(dòng)詞,不到最后那個(gè)詞出來(lái),你就不知道具體是什么。實(shí)時(shí)性和翻譯質(zhì)量之間比較難兼顧。這個(gè)問(wèn)題目前其實(shí)業(yè)界也沒(méi)有很好的辦法去解決。”他向本報(bào)記者提及。
清華大學(xué)計(jì)算機(jī)系教授劉洋也向本報(bào)記者提到:“目前距離開(kāi)放域、開(kāi)放環(huán)境的全自動(dòng)、高質(zhì)量語(yǔ)音翻譯還有很大距離,未來(lái)還需要學(xué)術(shù)界和工業(yè)界長(zhǎng)期的共同努力。”
而即使是在業(yè)界普遍認(rèn)為的技術(shù)成熟度相對(duì)最高的語(yǔ)音合成環(huán)節(jié),也依然還有問(wèn)題待解。
何曉冬認(rèn)為,這項(xiàng)技術(shù)雖然并不是很難,但如果做得不好,也會(huì)影響用戶(hù)的體驗(yàn)?!罢Z(yǔ)音合成的聲音比較平和、柔順,聽(tīng)起來(lái)比較符合人的自然的聲音。”
此外,被看作是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在機(jī)器翻譯領(lǐng)域的成功應(yīng)用、支撐機(jī)器翻譯的NMT(神經(jīng)機(jī)器翻譯)架構(gòu)本身,也被指存在可靠性、數(shù)據(jù)偏差、無(wú)意義輸出、記憶力、對(duì)常識(shí)的判斷力以及機(jī)器翻譯質(zhì)量評(píng)估方面的問(wèn)題。劉洋向本報(bào)記者稱(chēng):“過(guò)去一兩年,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法的大體框架沒(méi)有發(fā)生重大變化。”
而正如前文所述,AI技術(shù)到底對(duì)人工同傳的工作有多大實(shí)際的輔助作用,也還依舊值得關(guān)注。
劉洋向本報(bào)記者提及:“一般而言,很多實(shí)用化的、對(duì)譯文質(zhì)量要求非常高的機(jī)器翻譯系統(tǒng)都會(huì)采用人機(jī)協(xié)同的方式,充分發(fā)揮人類(lèi)專(zhuān)家和機(jī)器的優(yōu)勢(shì),通常由機(jī)器先生成初始譯文,然后由人類(lèi)專(zhuān)家進(jìn)行后編輯。”
然而,近日,有在同傳行業(yè)工作10年之久的一位人工同傳向本報(bào)記者稱(chēng):“我一般自己翻自己的,不看機(jī)器翻譯的結(jié)果。同傳的程序就應(yīng)該是聽(tīng)-譯,而不是聽(tīng)-看-譯(或照著機(jī)器初翻的結(jié)果跟著讀),后者分散精力,對(duì)翻譯員的壓力更大。”
上述500強(qiáng)公司的專(zhuān)業(yè)人士也向本報(bào)記者提及:“技術(shù)上自動(dòng)同傳或者自動(dòng)機(jī)器翻譯的系統(tǒng),可以給人工同傳提供一定的輔助和支持。但這個(gè)目前還沒(méi)有在實(shí)踐上被驗(yàn)證。至于怎么起到這種輔助作用,那也是未來(lái)實(shí)現(xiàn)的事情?!?/span>
而在投資市場(chǎng),近日,星瀚資本創(chuàng)始人楊歌在接受記者采訪(fǎng)時(shí)提及,同傳行業(yè)本身屬于一個(gè)“高頻的小眾市場(chǎng)”,市場(chǎng)整體產(chǎn)能相對(duì)有限,AI同傳領(lǐng)域應(yīng)更關(guān)注其能否延展到其他行業(yè)的應(yīng)用中去。
相較于與不同語(yǔ)種的機(jī)器人進(jìn)行同傳的對(duì)話(huà)和交流的“深A(yù)I”表現(xiàn)形式,楊歌認(rèn)為,對(duì)于單個(gè)人的語(yǔ)音進(jìn)行機(jī)器同傳則是一種“淺AI”的表現(xiàn)形式,前者“因更多地涉及到對(duì)話(huà)內(nèi)容、邏輯,還有理解長(zhǎng)段對(duì)話(huà)的一個(gè)過(guò)程,難度非常大,現(xiàn)在還屬于早期發(fā)展階段”。
業(yè)界探索和進(jìn)展略舉
作為人類(lèi)區(qū)別于其他生物的標(biāo)志之一,語(yǔ)音、語(yǔ)言方面的相關(guān)技術(shù),在黃學(xué)東看來(lái),堪稱(chēng)鑲在AI皇冠上的明珠。
他本人在這顆“明珠”上幾十年的雕琢和打磨,也見(jiàn)證了科技進(jìn)步所帶來(lái)的改變。
他或許還記得,早年間求學(xué)蘇格蘭愛(ài)丁堡大學(xué)時(shí),臺(tái)上操著濃重蘇格蘭英語(yǔ)的教授的發(fā)音,給自己帶來(lái)的“痛苦的經(jīng)歷”。
而這一切,現(xiàn)在已經(jīng)徹底成為歷史。2019年,通過(guò)整合此前就已推向市場(chǎng)的PPT插件,微軟向其office 365訂閱用戶(hù)推出了在講者演示時(shí)具有實(shí)時(shí)字幕和機(jī)器同步翻譯等功能的PPT。
在他看來(lái),技術(shù)在現(xiàn)實(shí)場(chǎng)景中最后一公里的落地是AI所面臨的最大挑戰(zhàn)。而微軟的AI技術(shù)在同傳場(chǎng)景中的這項(xiàng)應(yīng)用,在他看來(lái)“可圈可點(diǎn)”,讓同傳走上了新的臺(tái)階,使用量和用戶(hù)量都出現(xiàn)了前所未有的增長(zhǎng),已經(jīng)實(shí)際惠及全球千萬(wàn)級(jí)用戶(hù)。
“大家在臺(tái)上演講,有些人有語(yǔ)言障礙,同聲字幕和翻譯,對(duì)PPT的用戶(hù)來(lái)說(shuō),就很深入人心?!彼硎?。而對(duì)于前面提到的微軟PPT麥克風(fēng)遠(yuǎn)場(chǎng)交互方面的問(wèn)題,他表示可以用佩戴無(wú)線(xiàn)頭戴耳機(jī)的方式來(lái)解決。
此外,不久前搜狗推出的3.0版本的同傳產(chǎn)品,據(jù)稱(chēng)還用到了計(jì)算機(jī)視覺(jué)方面的技術(shù),是業(yè)內(nèi)首個(gè)“多模態(tài)”同傳產(chǎn)品,首創(chuàng)語(yǔ)境引擎,不僅會(huì)聽(tīng)、會(huì)看還會(huì)思考。
科大訊飛方面近日也向記者表示,其人機(jī)耦合模式下的同聲傳譯“已經(jīng)涉及醫(yī)療和科技領(lǐng)域,特別是在醫(yī)療領(lǐng)域?qū)ο嚓P(guān)垂直科室的專(zhuān)有名詞的優(yōu)化,大大提升了識(shí)別和翻譯的準(zhǔn)確性,解決了通用引擎在垂直領(lǐng)域上效果的不足”。
在AI同傳的研究方面,據(jù)黃學(xué)東向本報(bào)記者介紹,2019年,微軟在斯坦福大學(xué)進(jìn)行的對(duì)話(huà)轉(zhuǎn)語(yǔ)音識(shí)別方面,也“達(dá)到了可以媲美人類(lèi)的水平”。
何曉冬向本報(bào)記者稱(chēng),在學(xué)術(shù)研究層面,當(dāng)前業(yè)界有關(guān)于探討“能否做成一個(gè)很大的端到端的系統(tǒng),把語(yǔ)音識(shí)別和機(jī)器翻譯整個(gè)包起來(lái),直接從語(yǔ)音到語(yǔ)音,而不是說(shuō)分語(yǔ)音識(shí)別、機(jī)器翻譯和語(yǔ)音合成這三步走”的問(wèn)題。劉洋同時(shí)提到,關(guān)于該領(lǐng)域的學(xué)術(shù)研究還包括低延遲搜索算法等方面。
劉洋還向本報(bào)記者稱(chēng),當(dāng)前業(yè)界針對(duì)同傳的具體特點(diǎn)(如實(shí)時(shí)性高、需有效處理環(huán)境噪聲等)做了很多優(yōu)化工作,但總體而言還沒(méi)有取得新的里程碑式的重大突破。