久久99国产精品久久99_日韩在线第二页_日韩人妻无码一区二区三区久久_久久亚洲私人国产精品

咨詢熱線:021-80392549

 QQ在線  企業(yè)微信
 資訊 > 大數(shù)據(jù) > 正文

大數(shù)據(jù)分析到底需要多少種工具

2019/07/09720

越來越多的應(yīng)用涉及到大數(shù)據(jù),不幸的是所有大數(shù)據(jù)的屬性,包括數(shù)量、速度、多樣性等等都是描述了數(shù)據(jù)庫不斷增長的復(fù)雜性。那么大數(shù)據(jù)給我們帶來了什么好處呢?大數(shù)據(jù)最大的好處在于能夠讓我們從這些數(shù)據(jù)中分析出很多智能的、深入的、有價(jià)值的信息。

最近比較了179種不同的分類學(xué)習(xí)方法(分類學(xué)習(xí)算法)在121個(gè)數(shù)據(jù)集上的性能,發(fā)現(xiàn)Random Forest(隨機(jī)森林)和SVM(支持向量機(jī))分類準(zhǔn)確率最高,在大多數(shù)情況下超過其他方法。本文針對(duì)“大數(shù)據(jù)分析到底需要多少種工具?”

分類方法大比武

大數(shù)據(jù)分析主要依靠機(jī)器學(xué)習(xí)和大規(guī)模計(jì)算。機(jī)器學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等,而監(jiān)督學(xué)習(xí)又包括分類學(xué)習(xí)、回歸學(xué)習(xí)、排序?qū)W習(xí)、匹配學(xué)習(xí)等(見圖1)。分類是最常見的機(jī)器學(xué)習(xí)應(yīng)用問題,比如垃圾郵件過濾、人臉檢測、用戶畫像、文本情感分析、網(wǎng)頁歸類等,本質(zhì)上都是分類問題。分類學(xué)習(xí)也是機(jī)器學(xué)習(xí)領(lǐng)域,研究最徹底、使用最廣泛的一個(gè)分支。

大數(shù)據(jù)分析到底需要多少種工具

圖1機(jī)器學(xué)習(xí)分類體系

最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,機(jī)器學(xué)習(xí)頂級(jí)期刊)雜志發(fā)表了一篇有趣的論文。他們讓179種不同的分類學(xué)習(xí)方法(分類學(xué)習(xí)算法)在UCI 121個(gè)數(shù)據(jù)集上進(jìn)行了“大比武”(UCI是機(jī)器學(xué)習(xí)公用數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的規(guī)模都不大)。結(jié)果發(fā)現(xiàn)Random Forest(隨機(jī)森林)和SVM(支持向量機(jī))名列第一、第二名,但兩者差異不大。在84.3%的數(shù)據(jù)上、Random Forest壓倒了其它90%的方法。也就是說,在大多數(shù)情況下,只用Random Forest 或 SVM事情就搞定了。

幾點(diǎn)經(jīng)驗(yàn)總結(jié)

大數(shù)據(jù)分析到底需要多少種機(jī)器學(xué)習(xí)的方法呢?圍繞著這個(gè)問題,我們看一下機(jī)器學(xué)習(xí)領(lǐng)域多年得出的一些經(jīng)驗(yàn)規(guī)律。

大數(shù)據(jù)分析性能的好壞,也就是說機(jī)器學(xué)習(xí)預(yù)測的準(zhǔn)確率,與使用的學(xué)習(xí)算法、問題的性質(zhì)、數(shù)據(jù)集的特性包括數(shù)據(jù)規(guī)模、數(shù)據(jù)特征等都有關(guān)系。

一般地,Ensemble方法包括Random Forest和AdaBoost、SVM、LogisTIc Regression 分類準(zhǔn)確率最高。

沒有一種方法可以“包打天下”。Random Forest、SVM等方法一般性能最好,但不是在什么條件下性能都最好。

不同的方法,當(dāng)數(shù)據(jù)規(guī)模小的時(shí)候,性能往往有較大差異,但當(dāng)數(shù)據(jù)規(guī)模增大時(shí),性能都會(huì)逐漸提升且差異逐漸減小。也就是說,在大數(shù)據(jù)條件下,什么方法都能work的不錯(cuò)。參見圖2中Blaco & Brill的實(shí)驗(yàn)結(jié)果。

對(duì)于簡單問題,Random Forest、SVM等方法基本可行,但是對(duì)于復(fù)雜問題,比如語音識(shí)別、圖像識(shí)別,最近流行的深度學(xué)習(xí)方法往往效果更好。深度學(xué)習(xí)本質(zhì)是復(fù)雜模型學(xué)習(xí),是今后研究的重點(diǎn)。

在實(shí)際應(yīng)用中,要提高分類的準(zhǔn)確率,選擇特征比選擇算法更重要。好的特征會(huì)帶來更好的分類結(jié)果,而好的特征的提取需要對(duì)問題的深入理解。

大數(shù)據(jù)分析到底需要多少種工具

應(yīng)采取的大數(shù)據(jù)分析策略

建立大數(shù)據(jù)分析平臺(tái)時(shí),選擇實(shí)現(xiàn)若干種有代表性的方法即可。當(dāng)然,不僅要考慮預(yù)測的準(zhǔn)確率,還有考慮學(xué)習(xí)效率、開發(fā)成本、模型可讀性等其他因素。大數(shù)據(jù)分析平臺(tái)固然重要,同時(shí)需要有一批能夠深入理解應(yīng)用問題,自如使用分析工具的工程師和分析人員。

只有善工利器,大數(shù)據(jù)分析才能真正發(fā)揮威力。

在工具學(xué)習(xí)上,入門工具推薦兩類:SQL(Structured Query Language)、Microsoft Office Excel,進(jìn)階工具推薦:SPSS ClemenTIne/Python。

1、SQL

SQL是數(shù)據(jù)提取工具,大中型企業(yè)都會(huì)建立自己的數(shù)據(jù)庫系統(tǒng),常用數(shù)據(jù)會(huì)建立數(shù)據(jù)報(bào)表系統(tǒng)(常說的BI系統(tǒng),即business intelligence),供業(yè)務(wù)人員使用。但深入業(yè)務(wù)分析需要更多的底層數(shù)據(jù),報(bào)表系統(tǒng)里沒有呈現(xiàn)的數(shù)據(jù),這時(shí)就需要使用SQL工具提取數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)。

SQL工具很多,有oracle、mysql、sqlserver、hive等,除了細(xì)微差異,大多數(shù)SQL語句都通用。

SQL工具學(xué)習(xí)很容易,真正需要下功夫的是對(duì)數(shù)據(jù)庫表結(jié)構(gòu)的了解。從常用數(shù)據(jù)表了解,摸清數(shù)據(jù)指標(biāo)及含義,建立起表結(jié)構(gòu)間關(guān)系,完成日常工作數(shù)據(jù)提取工作為要。有精力的童鞋可以再去探索非常用數(shù)據(jù)表。

2、Microsoft Office Excel

Excel應(yīng)該是所有數(shù)據(jù)分析師的入門工具。除了一些常用功能使用外,就是使用數(shù)據(jù)透視表和多學(xué)習(xí)內(nèi)嵌函數(shù),能省去不少工作量。除了數(shù)據(jù)量級(jí)處理有限外,Excel功能強(qiáng)大不能僅僅用強(qiáng)大來形容。高階Excel學(xué)習(xí),可以繼續(xù)了解宏使用。

3、SPSS ClemenTIne/Python

在數(shù)據(jù)分析進(jìn)階路上,還有一類工具是:數(shù)據(jù)建模工具,如SPSS ClemenTIne、R、Python等。大數(shù)據(jù)時(shí)代,數(shù)據(jù)維度過于豐富,數(shù)據(jù)量級(jí)過于龐大,對(duì)于未知數(shù)據(jù)探索,手動(dòng)計(jì)算發(fā)現(xiàn)數(shù)據(jù)關(guān)系的工作量已經(jīng)過于繁重,交給這些數(shù)據(jù)模型工具就簡單多了。其內(nèi)嵌了大量精細(xì)的數(shù)據(jù)算法,我們需要做的就是掌握統(tǒng)計(jì)理論,掌握算法原理,輸入規(guī)范的數(shù)據(jù),等待模型的結(jié)果。當(dāng)然,對(duì)模型的掌握,結(jié)論的解讀,業(yè)務(wù)的理解,都是使用建模工具必須要學(xué)習(xí)的

下面我總結(jié)了分析大數(shù)據(jù)的5個(gè)方面。

1. Analytic Visualizations(可視化分析)

不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。可視化可以直觀的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。

2. Data Mining Algorithms(數(shù)據(jù)挖掘算法)

可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。

3. Predictive Analytic Capabilities(預(yù)測性分析能力)

數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。

4. Semantic Engines(語義引擎)

我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析、提取、分析數(shù)據(jù)。語義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。

5. Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)

數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。

假如大數(shù)據(jù)真的是下一個(gè)重要的技術(shù)革新的話,我們最好關(guān)注大數(shù)據(jù)能給我們帶來的好處,而不僅僅是挑戰(zhàn)。

關(guān)鍵詞:




AI人工智能網(wǎng)聲明:

凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問或質(zhì)疑,請(qǐng)立即與網(wǎng)站(www.gzlyhb.com)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。


聯(lián)系電話:021-31666777   新聞、技術(shù)文章投稿QQ:3267146135   投稿郵箱:syy@gongboshi.com

工博士人工智能網(wǎng)
商城
服務(wù)機(jī)器人
智能設(shè)備
協(xié)作機(jī)器人
智慧場景
AI資訊
人工智能
智能機(jī)器人
智慧城市
智慧農(nóng)業(yè)
視頻
工業(yè)機(jī)器人
教育機(jī)器人
清潔機(jī)器人
迎賓機(jī)器人
資料下載
服務(wù)機(jī)器人
工博士方案
品牌匯
引導(dǎo)接待機(jī)器人
配送機(jī)器人
酒店服務(wù)機(jī)器人
教育教學(xué)機(jī)器人
產(chǎn)品/服務(wù)
服務(wù)機(jī)器人
工業(yè)機(jī)器人
機(jī)器人零部件
智能解決方案
掃描二維碼關(guān)注微信
?掃碼反饋

掃一掃,反饋當(dāng)前頁面

咨詢反饋
掃碼關(guān)注

微信公眾號(hào)

返回頂部