過去我們過多地把目光聚焦于“人工智能三要素”中的算力和模型上;但隨著人工智能的深入,好的算力和模型已不再是稀有物種,被標注好的優(yōu)質(zhì)數(shù)據(jù)卻成為時下最為稀缺的“黑金”。AI的崛起離不開“好的”數(shù)據(jù)作為地基,這也是云測數(shù)據(jù)成立的初衷所在?,F(xiàn)在戳右邊鏈接上新智元小程序了解更多!
算力、模型和數(shù)據(jù)構(gòu)成了人工智能的三要素,過去,我們過多的把目光聚焦于算力和模型上,殊不知,隨著人工智能的深入,好的算力和模型已不再是稀有物種,反而那些被標注好的優(yōu)質(zhì)數(shù)據(jù)成為時下最為稀缺的“黑金”。
“公司的壁壘不再是算法,而是數(shù)據(jù)。讓算法利用足夠的數(shù)據(jù),使得產(chǎn)品運行起來?!比斯ぶ悄芎蜋C器學習領域國際的權(quán)威學者吳恩達在發(fā)表以“AI is the new electricity”為主題的演講時,就重點強調(diào)了數(shù)據(jù)的重要性。無獨有偶,李開復在清華大學“清華學堂計算機科學實驗班”題為《人工智能的黃金時代》的演講中也講到了此類觀點,“如果你有壟斷性的大數(shù)據(jù),你就會有很大的優(yōu)勢。”
以上種種,都表明著一件事,即AI的崛起離不開“好的”數(shù)據(jù)作為地基,這也是云測數(shù)據(jù)成立的初衷所在。
溯源云測數(shù)據(jù)的AI數(shù)據(jù)服務之路
“自2011年切入企服市場以來,Testin云測不斷致力于助力產(chǎn)業(yè)智能化,除了測試業(yè)務我們已經(jīng)成為專業(yè)領域的壟斷品牌,專注于AI數(shù)據(jù)服務的云測數(shù)據(jù)也成為數(shù)據(jù)領域的標桿品牌。目前我們整個數(shù)據(jù)服務團隊規(guī)模已超過1000人,通過標審分離的流程化作業(yè)模式和數(shù)據(jù)安全機制,更好的保證數(shù)據(jù)的高質(zhì)量產(chǎn)出和數(shù)據(jù)隱私性,從而更好地為人工智能落地提供定制化‘數(shù)據(jù)養(yǎng)料’?!痹诮邮茆伱襟w專訪時,云測數(shù)據(jù)總經(jīng)理賈宇航如是說。
AI數(shù)據(jù)服務作為一個非標領域,往往需要根據(jù)不同行業(yè)領域、不同的需求進行特定化的場景定制,而數(shù)據(jù)標注的過程,規(guī)范化、標準化以及可機讀性又不可或缺,這就意味著云測數(shù)據(jù)所從事的領域,并沒有捷徑可以走。
早期的數(shù)據(jù)標注服務門檻并不高,幾個人、幾臺電腦便可展開操作,導致了行業(yè)魚龍混雜、同質(zhì)化競爭等現(xiàn)象,而這時的人工智能也處在初期發(fā)展階段。但當人工智能駛?cè)肷钏畢^(qū),“應用人智能”聲勢逐漸火熱,相對應的算法對數(shù)據(jù)的精準程度和質(zhì)量要求也水漲船高,就要求著作為AI數(shù)據(jù)服務的提供者,要為人工智能提供定制化的、還原應用場景的優(yōu)質(zhì)數(shù)據(jù)。
針對于此,賈宇航告訴鈦媒體,“以人臉關鍵點識別為例,早先的相關數(shù)據(jù)標注往往用一句話便可描述完它的任務需求,到了現(xiàn)在,已經(jīng)發(fā)展到幾百個關鍵點。通常數(shù)量級的人臉數(shù)據(jù)標注任務,有時候4張A4紙都未必能寫完這些需求,而人臉的數(shù)據(jù)標注只是眾多領域的任務需求之一?!?
龐大數(shù)據(jù)標注任務量級之下,是當下業(yè)內(nèi)需求端對精準和高質(zhì)數(shù)據(jù)的普遍共識。
這就要求著數(shù)據(jù)服務要在數(shù)據(jù)標注和采集上下足功夫,而小團隊的能力范圍則顯得捉襟見肘?;貧w到數(shù)據(jù)標注面向多領域這件事的本質(zhì)時,你又會發(fā)現(xiàn),光靠人多或者說采用“眾包”模式往往只能解決量的需求,數(shù)據(jù)標注人員是否能統(tǒng)一化協(xié)同管理以及是否具備相關領域知識,才是決定某項數(shù)據(jù)任務完成質(zhì)量的好壞。
同時,這也是云測數(shù)據(jù)當下正專注的事情。正如醫(yī)生可以標注得好ct診療片,而云測數(shù)據(jù)團隊在進行自動駕駛車外環(huán)境數(shù)據(jù)標注時發(fā)現(xiàn),那些能夠快速、精準進行數(shù)據(jù)標注的人員往往擁有駕駛經(jīng)驗。
云測數(shù)據(jù)快速成長的秘訣是什么?
至此,我們還需要思考一個問題,為什么云測數(shù)據(jù)能做到且做好AI數(shù)據(jù)服務?
通過觀察Testin云測的發(fā)展歷史,我們便能找到答案。
自2011年Testin云測成立到現(xiàn)在,已經(jīng)為全球超過百萬的企業(yè)及開發(fā)者提供服務,積累了豐富且完善的技術能力和流程化管理能力。而云測數(shù)據(jù)AI數(shù)據(jù)服務正式開展于2017年,換句換說,Testin云測的數(shù)據(jù)業(yè)務線從一出生便擁有7年企業(yè)服務所積攢的經(jīng)驗,并繼承了行業(yè)獨立第三方的角色,天然的“以客戶為中心”的企服基因是云測數(shù)據(jù)區(qū)別于同行的最大護城河,而客戶最為關鍵的訴求則是“降本增效”。
“與企業(yè)服務在美國環(huán)境更側(cè)重標準不同的是,中國更重服務,通過這么多年的觀察我們發(fā)現(xiàn),是否能切實滿足用戶的真實需求,其實是一個非常重要的點,并不是說企業(yè)一定要做出一個平臺或者一個工具,更多是從企業(yè)或行業(yè)需求出發(fā),構(gòu)建對應的服務模式?!辟Z宇航對鈦媒體補充到。
以新零售門店巡檢為例,通常來說,每個門店每月都要巡檢一次,門店巡檢模式是讓一個人拿著調(diào)研表去盤點,隨著人工成本的增加,而門店數(shù)越來越多現(xiàn)實情況,已經(jīng)讓這成為一筆不小的開銷。通過引入AI數(shù)據(jù)服務,現(xiàn)在工作人員可以拿一個手機APP直接巡檢,物品的數(shù)量、sku的數(shù)量以及對應的sq數(shù)量,都能一目了然。
“從不同客戶反饋得知,通過我們云測數(shù)據(jù)的數(shù)據(jù)標注服務而落地AI產(chǎn)品的企業(yè),可為企業(yè)減少大概1/3的人工成本?!辟Z宇航如是說。
門店巡檢只是案例之一,就目前來說,云測數(shù)據(jù)主要關注智能駕駛、智慧城市、智慧金融和智能家居幾大方向,這也是當下市場需求最大的幾個領域。面對不同的數(shù)據(jù)領域,云測數(shù)據(jù)通過流水化作業(yè),將各個環(huán)節(jié)打造成不同模塊,并配合自己的流程管理工具,優(yōu)化人員管理、數(shù)據(jù)采集、數(shù)據(jù)清洗和數(shù)據(jù)標注的各個環(huán)節(jié)流程,確保內(nèi)部的持續(xù)高效能運轉(zhuǎn),最終保證AI數(shù)據(jù)高質(zhì)產(chǎn)出。
根據(jù)IDC調(diào)查顯示,目前中國大數(shù)據(jù)發(fā)展處于應用落地階段,整個市場預計未來五年將保持持續(xù)增長的趨勢,年復合增長率將達到17.3%。而得益于人工智能、5G、區(qū)塊鏈、邊緣計算的發(fā)展,未來多方技術融合,數(shù)據(jù)增長必然呈現(xiàn)井噴態(tài)勢,數(shù)據(jù)采集和標準業(yè)務作為其伴生體,必然有較大的增長空間。
得益于對AI趨勢的判斷,Testin云測認為,“人工智能正在逐漸往應用人工智能”方向發(fā)展,因而云測數(shù)據(jù)在成立之初,就確定了定制化“精準高質(zhì)、獨立安全”業(yè)務方針。本著這張“王牌”,云測數(shù)據(jù)部門迅速擴充,在以往企業(yè)服務經(jīng)驗的完美嫁接之下,最終讓云測數(shù)據(jù)成為AI數(shù)據(jù)服務領域的頭部企業(yè)?!?
“云測數(shù)據(jù)業(yè)務規(guī)模量每年都在以倍數(shù)的規(guī)模增長,這也與我們所處賽道的市場深度息息相關,在我看來,整個市場仍然呈現(xiàn)非線性的幾何增長態(tài)勢,還有很多機會蘊含其中,有待挖掘?!闭劶霸茰y數(shù)據(jù)業(yè)務線發(fā)展狀態(tài)時,賈宇航如是說。
“安全”是AI數(shù)據(jù)服務提供商繞不開的命題
機會之下,企業(yè)端在提供優(yōu)質(zhì)數(shù)據(jù)的同時,也要注意數(shù)據(jù)服務過程中的規(guī)范和安全。
在這方面,云測數(shù)據(jù)通過自建數(shù)據(jù)采集實驗室和自建數(shù)據(jù)標注基地的方式,規(guī)范管理專職數(shù)據(jù)服務團隊。這種措施除了保證標注數(shù)據(jù)的質(zhì)量和效率,也最大限度地保證了數(shù)據(jù)產(chǎn)出的安全隱私性。
賈宇航對鈦媒體強調(diào)到,云測數(shù)據(jù)自伊始便將數(shù)據(jù)安全放在首位,集中表現(xiàn)在以下幾個方面:
第一,不濫用數(shù)據(jù),數(shù)據(jù)交付后清毀數(shù)據(jù)不留底,絕不二次使用;
第二,不侵犯隱私,與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權(quán)協(xié)議,確保AI企業(yè)用于訓練的數(shù)據(jù)合法合規(guī);
第三,建立相關的數(shù)據(jù)保障機制,如從防火墻的設置、內(nèi)部信息系統(tǒng)的管護、乃至標準化的流程作業(yè)體系等。
正如Testin云測CMO張鵬飛多次強調(diào):“即便說云測數(shù)據(jù)從安全到隱私防護這套體系會加重運營成本,但從我們行業(yè)大局發(fā)展來看,只有以這種負責的態(tài)度來執(zhí)行工作,我們的行業(yè)才能‘良幣驅(qū)除劣幣’。”