微軟研究人員展示了一種令人印象深刻的新型文本轉(zhuǎn)語音人工智能模型,名為Vall-E,它可以只聽聲音幾秒鐘,然后模仿聲音——包括情感語調(diào)和音響效果——說出你想說的任何話。
這是許多人工智能算法中最新的一種,它們可以利用一個人的聲音錄音,讓它說出這個人從未說過的單詞和句子——而且它只需要一小段音頻就能推斷出整個人類的聲音,這是非常了不起的。例如,2017年蒙特利爾大學(xué)的Lyrebird算法需要整整一分鐘的語音來分析,而Vall-E只需要三秒鐘的音頻片段。
人工智能已經(jīng)接受了大約6萬小時的英語演講訓(xùn)練——似乎主要是通過有聲讀物解說員,研究人員提供了大量樣本,在這些樣本中,Vall-E試圖操縱一系列人類的聲音。有些人在捕捉聲音的本質(zhì)和構(gòu)建聽起來自然的新句子方面做得非常出色——你很難分辨出哪個是真實(shí)的聲音,哪個是合成的。在其他情況下,唯一的漏洞是人工智能將重點(diǎn)放在句子中奇怪的地方。
Vall-E在重新創(chuàng)建原始示例的音頻環(huán)境方面做得特別好。如果樣本聽起來像通過電話錄制的,那么合成也是如此。它在口音方面也很不錯——至少是美式、英式和一些歐洲口音。
在情感方面,結(jié)果就不那么令人印象深刻了。使用憤怒、困倦、有趣或厭惡的語音樣本似乎會讓事情偏離軌道,合成出來的聲音聽起來扭曲得很奇怪。
這類技術(shù)的影響非常明顯;從積極的方面來看,將來你在超市里推手推車的時候,可以讓摩根·弗里曼(Morgan Freeman)為你的購物清單念一遍。如果演員在電影中中途死亡,他們可以使用這樣的系統(tǒng)通過深度偽造的視頻和音頻來完成表演。蘋果公司最近推出了一套由人工智能為你朗讀的有聲讀物目錄,很顯然,你很快就能在飛行中切換旁白。
消極的一面是,這對配音演員和敘述者來說并不是什么好消息?;蛘邔β牨妬碚f;人工智能或許能夠快速且廉價地完成敘述,但不要指望它有太多藝術(shù)元素。他們不會像史蒂芬·弗萊那樣解讀道格拉斯·亞當(dāng)斯。
騙子的潛力也非常大。如果一個騙子能讓你在電話上停留三秒鐘,他們就能竊取你的聲音,然后用它給你的奶奶打電話。或者繞過任何語音識別安全設(shè)備。這正是終結(jié)者機(jī)器人打電話時需要的東西。
當(dāng)然,每個人都還在等待這樣一個時刻:一個政治人物的第一次深度偽造的演講,欺騙了足夠多的人,破壞了相信你的眼睛和耳朵的概念——就好像客觀真理在這個奇怪的時代還沒有受到攻擊一樣。
微軟Vall-E團(tuán)隊(duì)在其演示頁面的末尾附加了一份簡短的道德聲明:“這項(xiàng)工作中的實(shí)驗(yàn)是在假設(shè)模型的用戶是目標(biāo)說話者并已得到說話者的批準(zhǔn)的情況下進(jìn)行的。然而,當(dāng)模型推廣到看不見的演講者時,相關(guān)的組件應(yīng)該伴隨著語音編輯模型,包括確保演講者同意執(zhí)行修改的協(xié)議和檢測編輯后的語音的系統(tǒng)?!?
像DALL-E、ChatGPT、各種deepfake算法和無數(shù)其他創(chuàng)造性人工智能的崛起,感覺在過去幾個月里正處于一個拐點(diǎn),開始沖出實(shí)驗(yàn)室,進(jìn)入現(xiàn)實(shí)世界。與所有變化一樣,它帶來了機(jī)遇和風(fēng)險(xiǎn)。我們真的生活在一個有趣的時代。