AI熱潮不減。過去一周,“雙馬對話”拉開世界人工智能大會的討論熱潮,同一時間, 百度在北京舉辦“百度云智峰會”喊出“AI工業(yè)化”的口號。京東云發(fā)布智能城市戰(zhàn)略。僅一個周末,由陌陌推出的AI換臉APP,一夜“ZAO”熱……
放眼國內,AI技術正展現(xiàn)大變革潛力,AI賽道也日益擁擠。站在今天回看,2017年或許是中國人工智能發(fā)展的一個重要節(jié)點。從那一年開始,人工智能風起云涌。一夜之間,仿佛所有的公司都變成了人工智能公司,資本、人才向人工智能領域快速涌入。“人工智能”成為科技界、學界、企業(yè)界最熱門、最受追捧的詞匯之一。而彼時,科技巨頭Google、IBM等對人工智能的研究已逾十年,近幾年部分研究成果已經進入商業(yè)應用。
從這些維度來看,人工智能可謂已經迎來一個非常好的時代,但是熱鬧背后一些問題也浮現(xiàn)出來。在釋放巨大應用價值和商業(yè)價值的同時,人工智能的推廣使用也產生了一些“副作用”。個人隱私信息被非法采集、利用大數據實施精準詐騙等,已開始露出苗頭;“人工智能可能拉大數字鴻溝、取代工作崗位”的猜測,也引發(fā)了一些擔憂。
人工智能需要“交通法規(guī)”
回應社會上對人工智能的種種擔憂,又為這一技術保留了足夠的創(chuàng)新空間。前不久,國家新一代人工智能治理專業(yè)委員會發(fā)布了《新一代人工智能治理原則——發(fā)展負責任的人工智能》,明確了人工智能治理的框架和行動指南。
這意味著,正在快車道上飛奔的中國人工智能多了一部“交通法規(guī)”。 作為一項影響深遠的顛覆性技術,人工智能技術可能帶來的“副作用”不可小覷。特別是在人工智能進入實用的新階段,鼓勵創(chuàng)新和規(guī)范應用必須雙管齊下。我國已是人工智能發(fā)展大國,盡早立下“包容共享、敏捷治理”等規(guī)矩,將為人工智能的健康發(fā)展保駕護航。
消除偏見,打造負責任的人工智能
在探討人工智能可能帶來的偏見和歧視問題時,微軟的研究團隊,正在從稱為“單詞嵌入”的自然語言處理工具做起,試圖解決文本搜索中的性別偏見的問題。
所謂單詞嵌入,是一種用來將單詞轉換為向量數字的算法,它能夠以來自新聞數據或者網頁數據的海量文本數據為依據,為每個單詞賦予一個對應的向量數字。通過在向量坐標系中,比對常見詞匯與“他”、“她”這兩個性別代詞之間的關聯(lián)度,研究人員發(fā)現(xiàn)了一些明顯的特征,例如“sassy(刁蠻)”、“knitting(編織)”這樣的詞更靠近女性,而“hero(英雄)”、“genius(天才)”更靠近男性。
算法之所以會為這些詞匯賦予性別特征,原因在于訓練算法用的基準數據集——通常是來自新聞和網頁的數據——本身就存在著由語言習慣造成的“性別偏見”,算法也自然“繼承”了人類對這些詞匯理解的性別差異。其結果就是,當微軟用試驗算法,根據梅林達·蓋茨的 linkedIn 信息推測其職業(yè)時,得到了“教師”的判斷,但只要將人稱代詞換成“他”,蓋茨夫人的職業(yè)就會變?yōu)椤奥蓭煛?。為了解決這個問題,微軟的研究員提出了一個簡單易行的方案:在單詞嵌入中,刪除區(qū)分“他”和“她”的判斷維度,從基準數據集中消除偏見。
AI芯片喧囂背后市場痛點猶存
AI芯片已成為中外科技企業(yè)競爭的焦點之一,以至于清華大學微電子所所長魏少軍用“無產業(yè)不AI,無應用不AI,無芯片不AI”這樣的話語描述當下的人工智能熱潮。
“我們離人工智能還有多遠?目前很多企業(yè)所做的只是增強智能而不是真正的人工智能,離真正的人工智能還差得很遠”。魏少軍表示,人工智能網絡能夠崛起取決于三個因素,算法、數據和算力。當前,AI芯片面臨兩個現(xiàn)實問題:其一,算法仍在不斷演進,新算法層出不窮,每隔幾個月算法就發(fā)生新的變化;其二,一種算法對應一種應用,沒有統(tǒng)一的算法,而讓芯片處理不同的算法十分困難。
在魏少軍看來,AI芯片應該具備的要素包括可編程性、架構的動態(tài)可變性、高效的架構變換能力、高計算效率、高能耗效率、低成本等。按照這些要求,目前業(yè)界流行的一些做法均不是理想的架構。過去幾年,AI芯片領域一個重要變化就是架構的變化。人工智能芯片不在于追求算力,而在于架構創(chuàng)新。業(yè)界也需要找到一種針對人工智能計算的全新計算引擎。
云從科技副總裁張立認為,傳統(tǒng)芯片企業(yè)通常更關注是如何把芯片做成通用化,以支持各種不同應用場景。但這樣的通用化,在AI場景落地時會遇到問題,比如公司對AI芯片考慮較多的是單位功耗,而芯片企業(yè)對功耗要求可能不是首要優(yōu)先級。公司在將AI場景落地的過程中,發(fā)現(xiàn)通用芯片完全滿足不了需求。這給從事AI解決方案和核心算法的企業(yè)帶來了難題——公司的算法是統(tǒng)一的,但需要在不同的場景適配不同的芯片和模組。
“目前,AI芯片發(fā)展還處在嬰兒期”。張立表示,現(xiàn)在企業(yè)使用的很多AI芯片因為工藝要求較高,很難在大陸流片,都是在臺積電進行流片。同時,也正因這工藝復雜度較高,導致芯片價格較高,使得下游很多使用其模組的產品無法量產。
AI+教育的變革與反思
日前,某人臉識別系統(tǒng)在課堂上的應用在筆者朋友圈引起熱議。圖中顯示,兩名在教室中的女生身邊,顯示出了相應的課堂行為數據,比如趴桌子、玩手機、睡覺、聽講、閱讀、舉手等等。業(yè)內某名嘴犀利點評:非常反感這種應用,且毫無意義!教育,跟養(yǎng)豬的區(qū)別還是蠻大的!
聯(lián)合國教科文組織在2019年3月份發(fā)布過《教育中的人工智能:可持續(xù)發(fā)展的挑戰(zhàn)和機遇》報告,比較系統(tǒng)綜合了各國人工智能和教育相結合的做法。報告的愿景是促進人工智能教育可持續(xù)發(fā)展,但更重要的目標是怎么樣體現(xiàn)教育個性化、包容化、公平性,驅動教育管理步入全新的軌道,以及幫助學生為“就業(yè)革命”做好準備。
上海市人工智能學會理事長、同濟大學企業(yè)數字化技術教育部工程中心主任、同濟大學教授張浩就曾指出,數據驅動的智能教育主要考慮幾個因素:一方面是個性化“教”,作為教師,應該體現(xiàn)教學中的個性化。過去老師都是猜,現(xiàn)在可以通過數據輔助。另一方面是個性化的“學”,以前的學生總是聽,現(xiàn)在可以通過個性化數據輔助,可以學得更有序,從此建立個性化學習模式。目前,大數據主要還是推動個性化教育”。
未來學校的功能是轉變的,教育的內容是轉變的,教育的環(huán)境也是轉變的。教育是永恒的話題,AI結合教育剛剛開始?!吨袊逃F(xiàn)代化2035》中提到“智能”為先驅,以人才培養(yǎng)為核心,有四大方面的考量:提升校園智能化、新型教學模式、教育服務新業(yè)態(tài)、推進教學治理方式變革。人臉識別在課堂上的應用,相信只是AI落地教育領域的最初嘗試,經過不斷的試錯、調整,最終真正地輔助教育的目的。
人工智能要做高產值關鍵要以人為本
人工智能要做高產值不是什么難事,關鍵是要以人為本?!鄙虾H斯ぶ悄馨踩珜N瘯魅?、中科院院士、計算機軟件專家何積豐表示:“上海人工智能的發(fā)展取得了很大的進步,政府投入了大量的資源,給予了高度重視,但是在全面性方面仍然有待完善。
何積豐院士所說的全面性,是指要關注科研創(chuàng)新體制改革,以及關注新技術帶來的新挑戰(zhàn),包括人工智能的安全性、人工智能的人才培養(yǎng)、核心基礎研究的投入以及相應的配套設施的建設。
以安全為例,何積豐院士援引數據稱,上海人工智能三年的產值規(guī)模要達到500億人民幣,五年產值規(guī)模要達到1000億人民幣?!耙龈弋a值很容易,理論上一部分信息通信技術(ICT)行業(yè)的產值也可以算到人工智能領域。但要真正打造人工智能高地,讓人工智能服務于我們的社會經濟,還有很多工作要做?!焙畏e豐院士表示。
他強調,人工智能要解決的是基礎的算法問題,因此數學基礎研究很重要。他認為,由于中國基礎研究長時間地被邊緣化,要鼓動基礎研究人員參與其中需要更大的努力。此外,何積豐院士還強調應讓人工智能技術與5G技術充分結合,盡快建設完善各類網聯(lián)基礎設施,讓城市完成智慧協(xié)同,實現(xiàn)精細化的治理。
無數據,不AI
2018年,全球人工智能市場突破2700億元,其中中國超過360億元,相比2015年的203億元復合增長率為21%。飛速上揚的曲線背后是科技發(fā)展的日新月異,于互聯(lián)網下半場,AI已經成為很多公司、企業(yè)面向未來的武器和底氣。
與之對應的是另外一組數字,據We Are Social公司統(tǒng)計,全球獨立移動設備用戶滲透率超過了總人口的65%,活躍互聯(lián)網用戶突破了40億人,接入互聯(lián)網的活躍移動設備超過了50億臺。根據IDC預測,2020年,全球將總共擁有35ZB的數據量。
這是一組每天都處于千萬億次增長的數據曲線。
人工智能,算法是發(fā)動機,數據是燃料。對于大部分公司的AI業(yè)務來說,獲取海量而優(yōu)質的標注數據是進行人工智能的先決條件。算法模型是計算機基于大規(guī)模的訓練數據集,歸納出的識別邏輯,以實現(xiàn)精準的物體和場景識別??梢哉f,實現(xiàn)機器精準識別的重要一步,就是獲取海量而優(yōu)質的標注數據。
但在現(xiàn)階段工業(yè)界的AI應用研發(fā),標數據是一定跳不過去的,可能10年之內都要依賴于標數據?!币晃粯I(yè)內人士表示。
就當下而言,從最基本的構建模式來看,數據是人工智能的原料;但如果將數據與人工智能技術的整體發(fā)展相比,如今數據的采集和標注方式卻是后者發(fā)展的“木桶短板”。
這門生意正在進步。從粗放型到如今的精細化運作,數據的生意模式正在不斷升級。身處這個賽道的玩家們,則是給它做了最佳注腳。可以預測,“無數據,不AI”將會成為常態(tài)。
結語
經歷了這個夏天,AI熱度有增無減。但是相比最初由產業(yè)界、投資界所推動的熱潮,現(xiàn)在學界和基礎研究領域也在逐漸產生一些革命性變革,人才缺口問題也越來越受到重視,有望從根源上得到解決。
用一麻袋的錢買書,書看完了,賣了書卻發(fā)現(xiàn)錢不夠買麻袋。生活中很多事情往往會落入這個套路。
無意于用這個邏輯來暗諷AI創(chuàng)業(yè)的某些亂象。只是希望熱潮退卻時,不只是燒掉了投資人的錢,還有許多落在實處的有意義的應用。
退一萬步說,讀書也好,投資也好,最重要的意義不在于是否能夠回收麻袋成本,而是在這個過程中明白,自己是否真的需要麻袋,以及在這個過程中,那些無法用金錢來衡量的收獲。