今年3月,重慶車企歐尚汽車智慧快樂座艙在渝發(fā)布,將人工智能技術(shù)與汽車使用場景深度融合,打造了全球首發(fā)的車外語音交互系統(tǒng)。
這一系統(tǒng)的成功發(fā)布,是一批批汽車研發(fā)人員的共同努力。科大訊飛智能汽車重慶分中心總經(jīng)理馬鴻鵬帶領(lǐng)團(tuán)隊攻堅克難乘勢而上,用人工智能賦能智能汽車發(fā)展,助力重慶汽車產(chǎn)業(yè)轉(zhuǎn)型發(fā)展。
馬鴻鵬(中)與團(tuán)隊進(jìn)行技術(shù)交流??拼笥嶏w供圖
研發(fā):技術(shù)攻堅開創(chuàng)人機交互新格局
馬鴻鵬與重慶的結(jié)緣,從2018開始。
2018年智博會上,科大訊飛董事長劉慶峰宣布將西南總部落地重慶,同時落地的還有科大訊飛智能汽車的重慶分中心,馬鴻鵬也成為該中心的總經(jīng)理。與此同時,科大訊飛還與長安汽車等重慶車企共建聯(lián)合實驗室,在汽車電子智能化的技術(shù)研發(fā)、產(chǎn)品設(shè)計、以及整車應(yīng)用領(lǐng)域展開合作。
“小安你好,幫我查一下北京的天氣?!?
“好的,北京天氣晴,白天氣溫20度?!?
“再幫我訂一張去那兒的機票?!?
……
這樣的對話,在人與人交流中再平常不過,但是對于人機互動而言,想要和機器持續(xù)對話,并讓機器理解“那兒”就是上文所指的北京,技術(shù)難度不言而喻。
“在車內(nèi)一次喚醒實現(xiàn)多個指令,還要實現(xiàn)上下文理解,這種交互方式是之前沒有的,但卻是用戶的痛點?!瘪R鴻鵬解釋到,對于機器來說,機器需要記憶和理解當(dāng)前說話人的意圖和場景,就需要覆蓋盡可能多的場景和可能問法,這種會呈幾何級數(shù)增長的算法復(fù)雜度,使軟件的開發(fā)和維護(hù)都有較大難度。
為了實現(xiàn)這一智能操作,馬鴻鵬帶領(lǐng)著20多人組成的團(tuán)隊入駐長安汽車,反復(fù)測試形成龐大的場景知識庫,“通常車內(nèi)常用指令不超過2000種,但我們在車機上內(nèi)置了常用指令近6000條,不常用指令近2萬條,才精準(zhǔn)實現(xiàn)了用戶指令?!瘪R鴻鵬說。
另一項技術(shù)難點是,怎樣才能讓語音控制系統(tǒng)保持收音狀態(tài),同時車內(nèi)對非指令正常交流不作反饋?馬鴻鵬說,他們在車內(nèi)研發(fā)設(shè)置了聲紋識別、聲源定位等系統(tǒng),能夠準(zhǔn)確識別指令發(fā)出者的指令,而非指令者和日常車內(nèi)交流則不會被接收進(jìn)語音控制系統(tǒng),讓車內(nèi)語音操作更加智能和人性化。
如今,搭載了這些技術(shù)的飛魚OS已經(jīng)在長安CS95、CS75等車型上使用,也加速了重慶汽車智能化發(fā)展的進(jìn)程。
馬鴻鵬(右)與同事進(jìn)行智能車載系統(tǒng)測試。科大訊飛供圖
攻堅:攻克關(guān)鍵技術(shù)助力重慶造汽車走出去
隨著智能汽車產(chǎn)業(yè)發(fā)展,不少重慶汽車品牌也走向國際市場。馬鴻鵬說,智能汽車在海外使用,必須適用當(dāng)?shù)氐恼Z種,而在過去外語的車載語音識別及合成系統(tǒng)被國外企業(yè)壟斷,國內(nèi)車企只能使用國外企業(yè)的語音技術(shù)。“比如過去很長一段時間長安汽車在面向中東、南美等海外發(fā)行的車型中,語音識別系統(tǒng)一直是采用的國外技術(shù),安全問題是最大的考量。”
為了解決這一技術(shù)難題,馬鴻鵬團(tuán)隊聯(lián)合科大訊飛研究院展開長安汽車車載外語語音識別及合成系統(tǒng)研發(fā)。
“做車載外語識別,不僅需要聽懂,還要理解其他國家的語言文化習(xí)慣,甚至同一語種不同地區(qū)的口音,這就需要有強大的識別模型和機器學(xué)習(xí)做支撐?!瘪R鴻鵬解釋說,車載語音的“識別”分為“語音識別”和“語義識別”兩個技術(shù)層次,“語音識別”相當(dāng)于人的嘴巴和耳朵,負(fù)責(zé)表達(dá)和獲取,而“語義識別”相當(dāng)于人的大腦,負(fù)責(zé)思考和信息處理。為此,團(tuán)隊開創(chuàng)性地采用實體抽取+動態(tài)模板、融合深度學(xué)習(xí)的框架,將語言和語義技術(shù)剝離,構(gòu)建出云+端多語種語義平臺,基于該平臺可快速實現(xiàn)多語種的語義理解。
2021年,這套車載外語語音識別系統(tǒng)已成功實現(xiàn)了國產(chǎn)化,長安汽車海外發(fā)行的車型均采用了這一國產(chǎn)系統(tǒng),“關(guān)鍵技術(shù)的國產(chǎn)化不僅更穩(wěn)定安全,在生產(chǎn)成本上也實現(xiàn)了降低,助力國內(nèi)自主品牌出海?!瘪R鴻鵬說。
未來:“語音+視覺”開創(chuàng)人機交互新體驗
“身居汽車行業(yè)內(nèi),我們在不斷思考,如何發(fā)揮人工智能優(yōu)勢,通過‘AI+汽車’賦能重慶汽車制造開創(chuàng)新格局。”馬鴻鵬說。
“以前汽車的語音交互都在車內(nèi),實際上車外智能交互也是用戶的需求,一門之隔下,研發(fā)道阻且長?!瘪R鴻鵬舉例說,以往用戶在用車場景中,常會有開門難、挪車難等痛點,而這套車外語音交互系統(tǒng)可以讓車主在車外喚醒車輛,比如在擁擠的停車場,可以叫它“把車開出來”,車輛即可自動向前駛出,購物歸來雙手不方便開門,也可以說一聲“打開后備箱”,后備箱即可自動開啟。
“車外語音交互相較車內(nèi)語音交互來說,難點在于如何保障車外噪音等復(fù)雜環(huán)境下,機器能聽清楚并執(zhí)行指令?!瘪R鴻鵬說,為了實現(xiàn)車外的人車交互,他和團(tuán)隊獨創(chuàng)了神經(jīng)網(wǎng)絡(luò)降噪算法和“冷啟動”系統(tǒng)兩項技術(shù),讓車外語音交互系統(tǒng)做到360度語音降噪和無死角識別覆蓋,實現(xiàn)穩(wěn)定高效的車外語音交互。
未來,汽車智能化轉(zhuǎn)型升級之路怎么走?
“汽車革命的下半場是智能化、網(wǎng)聯(lián)化、共享化。”馬鴻鵬說,他正在和團(tuán)隊開發(fā)多模態(tài)交互的新技術(shù),未來的智能汽車除了在語音交互外,還將增加視覺感應(yīng)交互。比如,當(dāng)你看向左邊車窗,發(fā)出“打開車窗”指令,那么車機將只打開左側(cè)車窗;正在通過中控看地圖,說放大一點,車機將為用戶放大地圖。
汽車產(chǎn)業(yè)作為重慶重要的支柱產(chǎn)業(yè),從車端、零部件、電池、軟件等全產(chǎn)業(yè)鏈聚集,為重慶在智能汽車領(lǐng)域彎道超車奠定基礎(chǔ)。馬鴻鵬表示,科大訊飛將發(fā)揮人工智能優(yōu)勢,進(jìn)一步從技術(shù)提供商,向信息娛樂系統(tǒng)、音響系統(tǒng)等邁進(jìn),走向軟硬一體化發(fā)展,助力重慶汽車產(chǎn)業(yè)智能制造。