Kumaramputhur是喀拉拉邦Palakkad西北約45公里處的一個(gè)小村莊,約有3500個(gè)家庭在這里居住。這個(gè)村莊沒(méi)有第一產(chǎn)業(yè)可言,它的性別比例和識(shí)字率都低于該州的平均水平。除了有一些現(xiàn)代化的痕跡,這里似乎沒(méi)有什么值得引起注意。
然而,正是在這個(gè)村子里,高中輟學(xué)生Mujeeb Kolasseri指揮著一支由200多名員工組成的團(tuán)隊(duì),為美國(guó)、歐洲、澳大利亞和亞洲的客戶(hù)開(kāi)發(fā)人工智能解決方案。Kolasseri 于三年前創(chuàng)辦了這家名為Infolks的公司,28歲的他是該公司資格最老的成員。
該公司的辦公室位于連接Palakkad和Kozhikode的高速公路上,雖然不起眼,但團(tuán)隊(duì)里的大部分成員都在這里工作。他們所要做的就是將固定在自動(dòng)駕駛車(chē)輛上的攝像機(jī)拍攝的車(chē)輛、交通燈、路標(biāo)和行人的圖像進(jìn)行強(qiáng)調(diào)和標(biāo)記。這份工作看似簡(jiǎn)單,但卻很困難,因?yàn)樗麄冃枰獙⒓す饫走_(dá)遙感器捕獲的數(shù)據(jù)進(jìn)行精確標(biāo)記(激光雷達(dá)為自動(dòng)駕駛車(chē)輛創(chuàng)建3D地圖,以獲得對(duì)周?chē)矬w的感知)。
約2000公里之外,加爾各答西南邊緣的梅蒂阿布魯茲胡格利河岸附近,約有200名婦女正在給圖像貼標(biāo)簽,這些圖像將用于訓(xùn)練自動(dòng)駕駛車(chē)輛和增強(qiáng)現(xiàn)實(shí)系統(tǒng)中的算法。
“他們參與著一些我們最前沿的圖像項(xiàng)目,”數(shù)據(jù)注釋公司iMerit的技術(shù)和營(yíng)銷(xiāo)副總裁Jai Natarajan表示,其員工參與標(biāo)記和準(zhǔn)備數(shù)據(jù),以訓(xùn)練人工智能算法。
iMerit在加爾各答、蘭奇、布巴內(nèi)斯瓦爾、維扎格和夏隆辦事處的數(shù)千名員工也在從事著類(lèi)似的工作,通過(guò)給數(shù)百萬(wàn)數(shù)據(jù)貼上標(biāo)簽,幫助訓(xùn)練全球各大公司開(kāi)發(fā)的人工智能算法。
全球企業(yè)巨頭正在逐步采用人工智能,為人工智能算法提供支持的數(shù)據(jù)集也變得越來(lái)越專(zhuān)有,所以這些公司需要在要求、質(zhì)量控制、反饋和交付方面與數(shù)據(jù)標(biāo)簽團(tuán)隊(duì)進(jìn)行更高程度的合作。
由于本世紀(jì)初業(yè)務(wù)流程外包的繁榮,印度人對(duì)這些行話和要求并不陌生。數(shù)據(jù)注釋和標(biāo)記也是一種由流程驅(qū)動(dòng)的工作,需要精確的工作和技能,即使是受過(guò)高中教育的人也可以接受培訓(xùn)。
隨著以眾包為主的第一代工作被更先進(jìn)的要求所取代,Infolks、iMerit和Playment等公司開(kāi)始迎合全球客戶(hù),并使印度成為數(shù)據(jù)標(biāo)簽和注釋工作的新興中心。
“這是一個(gè)新興行業(yè)。在印度,每個(gè)人都已經(jīng)開(kāi)始意識(shí)到它帶來(lái)的巨大機(jī)遇,”印度科技產(chǎn)業(yè)機(jī)構(gòu)Nasscom的高級(jí)副總裁兼首席戰(zhàn)略官Sangeeta Gupta表示?!叭斯ぶ悄苄枰m當(dāng)注釋、分類(lèi)和匿名的數(shù)據(jù)。為此,不管喜不喜歡,你都將使用自動(dòng)化,但你也必須使用熟練的人力資源,而這就是它給印度帶來(lái)的機(jī)會(huì)?!?
根據(jù)研究公司Cognilytica的一份報(bào)告,到2023年底,與人工智能和機(jī)器學(xué)習(xí)相關(guān)的數(shù)據(jù)準(zhǔn)備解決方案的全球市場(chǎng),預(yù)計(jì)將從2018年的約5億美元增長(zhǎng)至12億美元。
什么是數(shù)據(jù)標(biāo)記?
通過(guò)數(shù)據(jù)標(biāo)記和注釋?zhuān)瑏?lái)自非結(jié)構(gòu)化來(lái)源(如照相機(jī)、傳感器、電子郵件和社交媒體等)以及來(lái)自結(jié)構(gòu)化來(lái)源(如數(shù)據(jù)庫(kù))的數(shù)據(jù)集被標(biāo)記、標(biāo)注、著色或突出顯示,以標(biāo)記出差異、相似性或類(lèi)型。通過(guò)這樣的方法,當(dāng)數(shù)據(jù)被輸入到用于訓(xùn)練人工智能系統(tǒng)的算法中時(shí),該算法可以正確地識(shí)別數(shù)據(jù)并從中學(xué)習(xí)。
比方說(shuō),你想訓(xùn)練一種算法,利用車(chē)載攝像機(jī)拍攝的圖像來(lái)理解路標(biāo)。數(shù)據(jù)標(biāo)簽工或注釋工將通過(guò)圖像數(shù)據(jù)集,使用標(biāo)注工具標(biāo)記或高亮顯示路標(biāo),并將其輸入人工智能算法進(jìn)行學(xué)習(xí)。下一次,當(dāng)算法在一個(gè)區(qū)域內(nèi)實(shí)時(shí)行駛并遇到路標(biāo)時(shí),它應(yīng)該能夠識(shí)別出路標(biāo)。算法訓(xùn)練的路標(biāo)圖像越多,其準(zhǔn)確性就越高。
推動(dòng)人工智能或機(jī)器學(xué)習(xí)激增的是從互聯(lián)網(wǎng)、社交媒體、傳感器和其他來(lái)源獲取的大量數(shù)據(jù)。如今的算法有能力吸收更多的數(shù)據(jù),從而也更精確。只要數(shù)據(jù)是優(yōu)質(zhì)且干凈的,將另外一百萬(wàn)個(gè)數(shù)據(jù)集輸入一個(gè)算法將會(huì)提高它的準(zhǔn)確性。因此,這也導(dǎo)致了人工智能算法和應(yīng)用對(duì)標(biāo)注良好的數(shù)據(jù)產(chǎn)生了無(wú)止境的渴望。
根據(jù)Cognilytica的報(bào)告,現(xiàn)如今,數(shù)據(jù)準(zhǔn)備和工程任務(wù)占據(jù)了大多數(shù)人工智能和機(jī)器學(xué)習(xí)項(xiàng)目80%以上的時(shí)間。
“比如自動(dòng)駕駛,一個(gè)小時(shí)的視頻數(shù)據(jù)可能需要消耗800個(gè)工時(shí),”P(pán)layment首席執(zhí)行官Siddharth Mall表示。
Infolks之旅
Kolasseri高中輟學(xué)后,在鋁加工行業(yè)工作,但由于健康原因不得不離開(kāi)。在國(guó)內(nèi),他注冊(cè)了亞馬遜稱(chēng)為“Mechanical Turk”(MTurk)的眾包就業(yè)市場(chǎng),并開(kāi)始從全球各地的公司從事注釋工作。
“我能夠保持99.8的評(píng)級(jí)是因?yàn)槲夷軌蛱峁└哔|(zhì)量的服務(wù)。我工作過(guò)的一家公司非常喜歡我的工作,于是直接找到我,并提供了更多的工作,”Kolasseri說(shuō),他隨后成立了一個(gè)六人團(tuán)隊(duì)來(lái)完成這項(xiàng)工作?!拔覀冏畛踉诩夜ぷ?,2016年初,隨著業(yè)務(wù)的增長(zhǎng),我決定注冊(cè)成立這家公司?!?
最初,Kolasseri的兄弟和一個(gè)朋友投資了2.5萬(wàn)盧比,幫助他建立了這家公司。如今,Infolks是一個(gè)正在成長(zhǎng)中的團(tuán)隊(duì),其大部分員工來(lái)自Kumaramputhur及其周邊地區(qū)。
Kolasseri說(shuō):“公司的愿景是將我們的村莊變得全球化,并為農(nóng)村地區(qū)的年輕人提供經(jīng)濟(jì)機(jī)會(huì)。近200名員工中有90%在20到25歲之間?!?
盡管該團(tuán)隊(duì)也負(fù)責(zé)醫(yī)療保健、機(jī)器人和農(nóng)業(yè)等領(lǐng)域的數(shù)據(jù)集,但他們大約75%的工作都是在自動(dòng)駕駛車(chē)輛領(lǐng)域。其客戶(hù)包括德國(guó)汽車(chē)公司戴姆勒和其他國(guó)際科技公司,由于簽署的協(xié)議,Kolasseri并未透露這些公司的名稱(chēng)。
至于注釋?zhuān)摴臼褂每蛻?hù)提供的工具,或者使用第三方工具?!拔覀兊难邪l(fā)團(tuán)隊(duì)正在開(kāi)發(fā)自己的注釋工具。它目前正在測(cè)試中,應(yīng)該會(huì)在接下來(lái)的幾周內(nèi)推出,” Kolasseri表示。Infolks還在Kozhikode區(qū)附近的一個(gè)科技園區(qū)內(nèi)設(shè)立了另一個(gè)辦事處。Kolasseri希望這能夠增加公司的收入,因?yàn)樾碌牡攸c(diǎn)屬于經(jīng)濟(jì)特區(qū),有助于擴(kuò)大其全球客戶(hù)群。
印度人工智能后臺(tái)
亞馬遜的MTurk在開(kāi)始限制非美國(guó)員工之前,曾是印度人尋找數(shù)據(jù)標(biāo)簽和注釋工作的熱門(mén)平臺(tái)。盡管后來(lái)取消了限制,但隨著企業(yè)客戶(hù)開(kāi)始更加重視數(shù)據(jù)安全,MTurk在數(shù)據(jù)標(biāo)簽商中的受歡迎程度有所下降。此外,包括Spare5、Cloudfactory和Figure Eight在內(nèi)的新眾包平臺(tái)也已經(jīng)進(jìn)入市場(chǎng),它們則更加關(guān)注注釋和標(biāo)簽市場(chǎng)。
Kolasseri說(shuō):“在創(chuàng)辦公司之前,我曾于2015年至2016年期間在MTurk平臺(tái)上工作過(guò),如今,仍然不斷有新的平臺(tái)出現(xiàn)。但是,由于企業(yè)客戶(hù)非常關(guān)注數(shù)據(jù)安全,尤其是考慮到許多數(shù)據(jù)集都是專(zhuān)有的,因此信任這些平臺(tái)上的工作人員成為他們面臨的更大挑戰(zhàn)?!?
由前Flipkart員工Mall、Ajinkya Malasane和Akshay Kumar Lal所創(chuàng)立的Playment,則以一種略有不同的方式對(duì)待注釋和標(biāo)簽行業(yè)。
該公司為各種用例開(kāi)發(fā)了一系列注釋工具,并開(kāi)發(fā)了一個(gè)由受過(guò)這些工具培訓(xùn)的標(biāo)簽工和注釋工組成的眾包平臺(tái)。該公司直接與客戶(hù)或相關(guān)的信息技術(shù)服務(wù)公司進(jìn)行合作。
“要將原始數(shù)據(jù)轉(zhuǎn)換為帶注釋的結(jié)構(gòu)化數(shù)據(jù),你需要前端注釋工具、熟練且經(jīng)濟(jì)高效的人力資源。此外,由于處理數(shù)據(jù)的規(guī)?;?,你還需要有合適的中間件來(lái)支持不同的工作流并管理遠(yuǎn)程人力資源,”Mall說(shuō)。
Playment的眾包平臺(tái)擁有30多萬(wàn)標(biāo)簽工和注釋工。其中,該公司認(rèn)為約有2.5萬(wàn)人是“高技能頂級(jí)玩家”。據(jù)Mall稱(chēng),這些人幾乎整天都在平臺(tái)上,平均月收入為2萬(wàn)至3萬(wàn)盧比。
Playment的大部分工作也來(lái)自國(guó)際客戶(hù),其中包括三星、滴滴出行、阿里巴巴、Drive.ai和Continental AG,其中大部分都屬于自動(dòng)駕駛車(chē)輛領(lǐng)域。
iMerit的戰(zhàn)略則以員工為中心。其2000多名勞動(dòng)力中,約80%來(lái)自月收入低于100美元的家庭;其中大約一半是女性?!拔覀兊纳鐣?huì)使命是在貧困社區(qū)和公司或工業(yè)較少的地區(qū)創(chuàng)造技術(shù)就業(yè)機(jī)會(huì)。我們?cè)诳萍籍a(chǎn)業(yè)稍低、科技就業(yè)機(jī)會(huì)較少的城市開(kāi)展業(yè)務(wù),” Natarajan說(shuō)道。
所謂的利他主義也有很好的商業(yè)意義。Natarajan表示:“我們的合作伙伴和辦公地點(diǎn),允許我們以非常經(jīng)濟(jì)高效的方式擴(kuò)大數(shù)據(jù)注釋和標(biāo)簽團(tuán)隊(duì),并為客戶(hù)提供高質(zhì)量的工作?!?
盡管iMerit的大部分業(yè)務(wù)都來(lái)自美國(guó)——客戶(hù)包括微軟、易趣和Tripadvisor——但其90%的數(shù)據(jù)注釋和標(biāo)簽工作是在印度完成的。
注釋自動(dòng)化
雖然各大公司正在開(kāi)發(fā)用于注釋的自動(dòng)化工具,但由于許多工作需要更為細(xì)致的定制注釋或標(biāo)簽工作,要想讓自動(dòng)化工具達(dá)到高精度還需要一段時(shí)間。
Natarajan說(shuō),與五年前人工智能還在區(qū)分貓和狗的不同相比,現(xiàn)在的人工智能需要處理更高級(jí)的工作?!皺C(jī)器學(xué)習(xí)已經(jīng)向前發(fā)展,所以不再有人要求我們?yōu)楣泛拓堖M(jìn)行標(biāo)記。如今,每家公司都有定制的需求和非常細(xì)微的需求,所以不可能自動(dòng)實(shí)現(xiàn)這一點(diǎn),也不可能自動(dòng)給出數(shù)據(jù)并由一群匿名人士貼上標(biāo)簽?!?
他說(shuō),基于人工智能的自動(dòng)化注釋工具是不可避免會(huì)出現(xiàn)的,但它并不是一個(gè)威脅?!白詣?dòng)化注釋工具本身就是經(jīng)過(guò)良好注釋訓(xùn)練出來(lái)的結(jié)果。當(dāng)你試圖解決一個(gè)問(wèn)題時(shí),這些工具只能把你帶到一定的水平,但是要超越這個(gè)水平,你還需要自定義注釋?zhuān)盢atarajan說(shuō)。
當(dāng)然,加以一段時(shí)間,自動(dòng)化工具會(huì)變的足夠有效,從而能夠創(chuàng)建更好地?cái)?shù)據(jù)集?!皬母L(zhǎng)遠(yuǎn)的角度來(lái)看,我們確實(shí)認(rèn)識(shí)到這個(gè)行業(yè)并不能永久存在。當(dāng)客戶(hù)成功時(shí),我們的任務(wù)就結(jié)束了,”Natarajan說(shuō)?!暗覀円舶l(fā)現(xiàn),這也并不是一個(gè)100%肯定的事情,因?yàn)樗偸且粋€(gè)持續(xù)不斷的學(xué)習(xí)和改進(jìn)的過(guò)程。此外,當(dāng)客戶(hù)轉(zhuǎn)向下一個(gè)問(wèn)題時(shí),一切又都從零開(kāi)始了?!?
換句話說(shuō),印度的數(shù)據(jù)標(biāo)簽和注釋公司尚未見(jiàn)頂,這一行業(yè)可能需要很長(zhǎng)時(shí)間才會(huì)走上業(yè)務(wù)流程外包的老路。