重讀《大數(shù)據(jù)時(shí)代》:關(guān)于大數(shù)據(jù)的再認(rèn)識(shí)
時(shí)間:2018-09-26 14:39 閱讀:1125 整理:市場(chǎng)調(diào)研公司
《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》是被譽(yù)為“大數(shù)據(jù)時(shí)代的預(yù)言家”的牛津大學(xué)教授維克托.邁克-舍恩伯格所寫的一本經(jīng)典大數(shù)據(jù)書籍,2013年筆者首讀此書,豁然開朗,其中很多的觀點(diǎn)振聾發(fā)聵,如果你還沒讀過此書,建議你可以讀一下。
一晃三年過去,筆者對(duì)于大數(shù)據(jù)也有了一些新的認(rèn)識(shí), 無論是所謂的大數(shù)據(jù)帶來了思維方式上的變革,還是技術(shù)上的革命,或者商業(yè)模式或管理模式的改變,但從本質(zhì)的角度講,大數(shù)據(jù)還沒有達(dá)到所謂的高度,即大數(shù)據(jù)時(shí)代,其與信息時(shí)代的計(jì)算機(jī)、集成電路、光纖通信,互聯(lián)網(wǎng)相比,目前還無法媲美,衡量大數(shù)據(jù)成功的標(biāo)志,是是否推動(dòng)了國(guó)家的人均信息消費(fèi)水平達(dá)到一個(gè)新的高度(此句摘自李國(guó)杰院士)。
對(duì)于《大數(shù)據(jù)時(shí)代》此書提的很多觀點(diǎn)應(yīng)該用辯證的方法來看待,以下筆者就一些認(rèn)識(shí)上的一些爭(zhēng)議給出自己的理解,注意,后面有彩蛋,一定要看完哦:
“不是隨機(jī)樣本,而是全體數(shù)據(jù)”,實(shí)際大多并不是這樣
作者表達(dá)了一個(gè)觀點(diǎn),“當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生了翻天覆地的變化時(shí),在大數(shù)據(jù)時(shí)代進(jìn)行抽樣分析就像在汽車時(shí)代騎馬一樣。一切都改變了,我們需要的是所有的數(shù)據(jù),“樣本=總體””。
這種說法表明了一種新的認(rèn)知世界的方式,是一種新的趨勢(shì),努力達(dá)到全量的確可以讓我們抓到了更多的細(xì)節(jié),讓我們擺脫傳統(tǒng)統(tǒng)計(jì)分析學(xué)的束縛,就好比以前預(yù)測(cè)美國(guó)總統(tǒng)大選,采用的是民意抽樣統(tǒng)計(jì),而如今已經(jīng)可以對(duì)于社區(qū)用戶所有言論的判斷來更精準(zhǔn)的預(yù)測(cè)。
但是,現(xiàn)實(shí)世界很殘酷,大多數(shù)領(lǐng)域你其實(shí)無法拿到全量的數(shù)據(jù),或者,如果你要拿到全量的數(shù)據(jù),代價(jià)極其巨大,因此,大多數(shù)時(shí)候,我們用的大數(shù)據(jù)仍是局部的小數(shù)據(jù),沒有所謂“樣本=總體”的條件,傳統(tǒng)的以抽樣來理解這個(gè)世界的方式仍然有效,機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)作為一種認(rèn)知世界的方法也將持續(xù)有效,前期的AlphaGo與李世石的人機(jī)大戰(zhàn)。AlphaGo只能用采樣的方式獲得有限的棋局進(jìn)行深度學(xué)習(xí)就是例證,因?yàn)槟悴豢赡苣玫饺康臉颖净蛘呱踔潦亲銐虻臉颖?,因?yàn)檫@個(gè)數(shù)量比全宇宙的原子還多。
當(dāng)然,對(duì)于國(guó)際象棋和中國(guó)象棋上,全量的數(shù)據(jù)已經(jīng)使得傳統(tǒng)勝負(fù)的玄妙缺失了意義,因此,可以這么大膽推測(cè),當(dāng)某個(gè)領(lǐng)域具備“樣本=總體”的時(shí)候,就是該領(lǐng)域被大數(shù)據(jù)替換的時(shí)刻。
“不是精確性,而是混雜性”,沒能力但不能否定精確性的價(jià)值
作者表達(dá)了這樣一個(gè)觀點(diǎn),執(zhí)迷于精確性是信息時(shí)代和模擬時(shí)代的產(chǎn)物。只有5%的數(shù)據(jù)是結(jié)構(gòu)化且能適用于傳統(tǒng)數(shù)據(jù)庫(kù)的。如果不接受混亂,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶,大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效。
傳統(tǒng)數(shù)據(jù)處理追求“精確度”,這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,所以我們必須盡可能精準(zhǔn)地量化我們的記錄。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,分布廣泛。擁有了大數(shù)據(jù), 我們不再需要對(duì)一個(gè)現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可,適當(dāng)忽略微觀層面上的精確度會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力。
這段話說得沒錯(cuò),但我認(rèn)為大數(shù)據(jù)的復(fù)雜算法對(duì)于認(rèn)識(shí)這個(gè)世界更為重要,對(duì)于精準(zhǔn)性的把握始終是我們的目標(biāo),只是因?yàn)槲覀儸F(xiàn)在的算法太弱了,無法駕馭大數(shù)據(jù),才提簡(jiǎn)單的算法。
比如,在工業(yè)界一直有個(gè)很流行的觀點(diǎn):在大數(shù)據(jù)條件下,簡(jiǎn)單的機(jī)器學(xué)習(xí)模型會(huì)比復(fù)雜模型更加有效。例如,在很多的大數(shù)據(jù)應(yīng)用中,最簡(jiǎn)單的線性模型得到大量使用。而最近深度學(xué)習(xí)的驚人進(jìn)展,促使我們也許到了要重新思考這個(gè)觀點(diǎn)的時(shí)候。簡(jiǎn)而言之,在大數(shù)據(jù)情況下,也許只有比較復(fù)雜的模型,或者說表達(dá)能力強(qiáng)的模型,才能充分發(fā)掘海量數(shù)據(jù)中蘊(yùn)藏的豐富信息。運(yùn)用更強(qiáng)大的深度模型,也許我們能從大數(shù)據(jù)中發(fā)掘出更多有價(jià)值的信息和知識(shí)。
為了理解為什么大數(shù)據(jù)需要深度模型,先舉一個(gè)例子。語(yǔ)音識(shí)別已經(jīng)是一個(gè)大數(shù)據(jù)的機(jī)器學(xué)習(xí)問題,在其聲學(xué)建模部分,通常面臨的是十億到千億級(jí)別的訓(xùn)練樣本。在Google的一個(gè)語(yǔ)音識(shí)別實(shí)驗(yàn)中,發(fā)現(xiàn)訓(xùn)練后的DNN對(duì)訓(xùn)練樣本和測(cè)試樣本的預(yù)測(cè)誤差基本相當(dāng)。這是非常違反常識(shí)的,因?yàn)橥ǔDP驮谟?xùn)練樣本上的預(yù)測(cè)誤差會(huì)顯著小于測(cè)試樣本。因此,只有一個(gè)解釋,就是由于大數(shù)據(jù)里含有豐富的信息維度,即便是DNN這樣的高容量復(fù)雜模型也是處于欠擬合的狀態(tài),更不必說傳統(tǒng)的GMM聲學(xué)模型了。所以從這個(gè)例子中我們看出,大數(shù)據(jù)需要復(fù)雜深度學(xué)習(xí),毫無疑問AlphGo也必定是欠擬合的。
“不是因果關(guān)系,而是相關(guān)關(guān)系”,追求真理是我們永恒的目標(biāo)
作者提出了這樣一個(gè)觀點(diǎn),尋找因果關(guān)系是人類長(zhǎng)久以來的習(xí)慣。即使確定因果關(guān)系很困難而且用途不大,人類還是習(xí)慣性地尋找緣由。在大數(shù)據(jù)時(shí)代,我們無須再緊盯事物之間的因果關(guān)系,不再把分析建立在早已設(shè)立的假設(shè)的基礎(chǔ)之上。而應(yīng)該尋找事物之間的相關(guān)關(guān)系,讓大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。
一方面,應(yīng)該承認(rèn)基于大數(shù)據(jù)的相關(guān)關(guān)系是我們認(rèn)識(shí)世界和改造世界的新的方式,從應(yīng)用科學(xué)的角度講,降低對(duì)于因果關(guān)系的追求可以讓大數(shù)據(jù)創(chuàng)造更大的價(jià)值。
另一方面,當(dāng)前階段由于我們對(duì)于世界的認(rèn)知太少,人類在有限的時(shí)間內(nèi)不可能找到“終極真理”,大量的規(guī)律通過大數(shù)據(jù)暴露出了蛛絲馬跡,即所謂的相關(guān)關(guān)系,但其本質(zhì)上仍是因果關(guān)系的體現(xiàn),因此兩者并不沖突。一個(gè)解決當(dāng)前問題,是近,一個(gè)解決長(zhǎng)期問題,是遠(yuǎn),兩者相輔相成,無所謂誰(shuí)替代誰(shuí)。從社會(huì)角度來講,企業(yè)可以致力于大數(shù)據(jù)相關(guān)關(guān)系來創(chuàng)造更多的商機(jī),而因果關(guān)系仍然是基礎(chǔ)研究需要追求的東西,不能說人類物質(zhì)上滿足了,就不去追求更為本原的東西。
同時(shí),大數(shù)據(jù)方法也可以發(fā)現(xiàn)因果關(guān)系,2014年,美國(guó)國(guó)防高級(jí)研究計(jì)劃局啟動(dòng)其“大機(jī)理”項(xiàng)目。目的是發(fā)展可以發(fā)現(xiàn)隱藏在大數(shù)據(jù)中因果模型。典型“大機(jī)理”例子就是,1854年的倫敦地圖顯示爆發(fā)霍亂和污染的公共水泵之間的聯(lián)系。該發(fā)現(xiàn)推翻了當(dāng)時(shí)認(rèn)為疾病是通過空氣傳播的認(rèn)識(shí)。大機(jī)理包含在巨大的、零碎的、有時(shí)相互矛盾的文獻(xiàn)和數(shù)據(jù)庫(kù)中,所以,沒有任何一個(gè)人可以理解該如此復(fù)雜的系統(tǒng),所以必須依靠計(jì)算機(jī)。
DARPA辦公室最初使用“大機(jī)理”工具來研究導(dǎo)致細(xì)胞癌變的復(fù)雜分子之間的相互作用。該方法包括使用電腦掃描癌癥類論文,來獲取癌癥路徑的有關(guān)數(shù)據(jù)。獲取的數(shù)據(jù)片段可以組成”前所未有規(guī)模和精度”的完整路徑,以此來確定傳遞路徑如何互動(dòng)。最后,自動(dòng)工具可以幫助確定因果關(guān)系,該因果關(guān)系可用來開發(fā)潛在治療癌癥的方法。科恩說:“分子生物學(xué)和癌癥文獻(xiàn)強(qiáng)調(diào)機(jī)理,論文描述蛋白質(zhì)如何影響其它蛋白質(zhì)的表達(dá),這些影響如何產(chǎn)生生物效果。電腦應(yīng)該可以被用來分析這些癌癥類論文中的因果關(guān)系?!蓖ㄟ^強(qiáng)調(diào)因果模型和解釋,大機(jī)理將成為科學(xué)的未來。
“小數(shù)據(jù)的問題,大數(shù)據(jù)就能解決”,大數(shù)據(jù)并沒有解決小數(shù)據(jù)問題
大數(shù)據(jù)體現(xiàn)了4V特征,但我們現(xiàn)在碰到的數(shù)據(jù)仍是主要是小數(shù)據(jù),我們應(yīng)該抱著務(wù)實(shí)的態(tài)度去解決小數(shù)據(jù)的問題,小數(shù)據(jù)的問題并不會(huì)由于大數(shù)據(jù)的產(chǎn)生而自動(dòng)解決。
統(tǒng)計(jì)學(xué)家們花了200多年,總結(jié)出認(rèn)知數(shù)據(jù)過程中的種種陷阱,這些陷阱并沒有被填平,比如采樣,大數(shù)據(jù)中有大量的小數(shù)據(jù)問題,這些問題不會(huì)隨著數(shù)據(jù)量的增大而消失,要注意數(shù)據(jù)(樣本)的偏差,比如Google的流感預(yù)測(cè)為什么近3年失敗,因?yàn)槠潆S機(jī)性實(shí)際不夠,比如媒體對(duì)于流感流行的報(bào)道會(huì)增加與流感相關(guān)的詞匯的搜索次數(shù),進(jìn)而影響Google的預(yù)測(cè),對(duì)谷歌大肆炒作的流感跟蹤系統(tǒng)的研究結(jié)果發(fā)現(xiàn),該系統(tǒng)多年來一直高估美國(guó)的流感病例。這項(xiàng)失敗凸顯了依賴大數(shù)據(jù)技術(shù)的危險(xiǎn)性。
“谷歌在2008年推出的流感趨勢(shì)系統(tǒng)監(jiān)測(cè)全美的網(wǎng)絡(luò)搜索,尋找與流感相關(guān)的詞語(yǔ),比如“咳嗽”和“發(fā)燒”等。它利用這些搜索來提前9個(gè)星期預(yù)測(cè)可能與流感相關(guān)的就醫(yī)量。在過去3年,該系統(tǒng)一直高估與流感相關(guān)的就醫(yī)量,在這類數(shù)據(jù)最有用的流感季節(jié)高峰期尤其預(yù)測(cè)不準(zhǔn)確。在2012/2013流感季節(jié),它預(yù)測(cè)的就醫(yī)量是美國(guó)疾控中心(CDC)最終記錄結(jié)果的兩倍;在2011/2012流感季節(jié),它高估了逾50%?!?
發(fā)人深省的彩蛋觀點(diǎn),關(guān)于啤酒和尿布有點(diǎn)雷
(1)數(shù)據(jù)化,而不是數(shù)字化
所謂的數(shù)字化指的是把模擬數(shù)據(jù)轉(zhuǎn)換成用0和1表示的二進(jìn)制碼,而數(shù)據(jù)化是指把現(xiàn)象轉(zhuǎn)變成可制表分析的量化形式的過程,舉個(gè)例子,我們掃描實(shí)體書成為電子書,如果保存形式是圖片,這個(gè)只能叫作數(shù)字化,而我們通過字符識(shí)別軟件進(jìn)行了文本解析,圖像就變成了數(shù)據(jù)化文本,兩者有本質(zhì)的不同,萬(wàn)物只有數(shù)據(jù)化后,才可以被量化,我們才能通過量化后的數(shù)據(jù)創(chuàng)造更多的價(jià)值。美國(guó)政府在提數(shù)據(jù)開放的時(shí)候,強(qiáng)調(diào)了開放的數(shù)據(jù)必須是可以有機(jī)讀的,就是這個(gè)意思,一個(gè)PDF的信息量跟一個(gè)WORD的信息量顯然是不一樣的。
(2)應(yīng)用為王,不要迷信技術(shù)
目前各類企業(yè)都在建設(shè)大數(shù)據(jù)中心,但成本其實(shí)很大,當(dāng)前的新的信息技術(shù)層出不窮,不斷冒出新概念,新名詞,大數(shù)據(jù)技術(shù)其實(shí)還在不停的發(fā)展,現(xiàn)階段,應(yīng)該充分考慮成本因素,抱著應(yīng)用為先的態(tài)度,技術(shù)始終要為應(yīng)用服務(wù),我們應(yīng)該致力于用技術(shù)解決業(yè)務(wù)問題,而不是被潮流技術(shù)牽著鼻子走。不用迷信Google等技術(shù)公司的創(chuàng)新,有的放矢的借鑒,BAT做得足夠好,不要去貶低這些公司的技術(shù)創(chuàng)新性,不要用Google的AlphGo去鄙視百度的人工智能,應(yīng)用始終為王,百度發(fā)明的人工智能輸入實(shí)際應(yīng)用意義可能遠(yuǎn)大于AlphaGo。
(3)隱私問題,不是那么簡(jiǎn)單
告知與許可也許已經(jīng)是世界各地執(zhí)行隱私政策的基本法則,但這個(gè)法則有問題,大數(shù)據(jù)時(shí)代,很多數(shù)據(jù)在收集時(shí)并無意用于其它用途,但最終往往是二次開發(fā)利用創(chuàng)造了價(jià)值,公司無法告知用戶尚未想到的用途,而個(gè)人也無法同意這種尚是未知的用途。如果谷歌要使用檢測(cè)詞預(yù)測(cè)流感的話,必須征得數(shù)億用戶的同意,就算沒有技術(shù)障礙,有哪個(gè)公司能負(fù)擔(dān)得起。
同樣,所謂的匿名化在小數(shù)據(jù)時(shí)代的確可以,但是隨著數(shù)據(jù)量和種類的增多,大數(shù)據(jù)促進(jìn)了數(shù)據(jù)內(nèi)容的交叉檢驗(yàn)。
政府在未來制定相關(guān)法規(guī)的時(shí)候,應(yīng)該充分尊重事實(shí),也許提前預(yù)防永遠(yuǎn)無法解決大數(shù)據(jù)應(yīng)用和隱私問題。
(4)大數(shù)據(jù)的驅(qū)動(dòng)效應(yīng)
大家所說的大數(shù)據(jù)是沙里淘金,大海撈針,導(dǎo)致人們總是渴望從大數(shù)據(jù)挖掘出意想不到的“價(jià)值”。實(shí)際上大數(shù)據(jù)更大的價(jià)值是帶動(dòng)有關(guān)的科研和產(chǎn)業(yè),提高個(gè)行業(yè)通過數(shù)據(jù)分析解決困難問題和增值的能力,大數(shù)據(jù)價(jià)值體現(xiàn)在它的驅(qū)動(dòng)效益。
所謂的“啤酒與尿布”的數(shù)據(jù)挖掘經(jīng)典案例,其實(shí)是Teradata公司的一位經(jīng)理編造出來的“故事”,歷史上并沒有發(fā)生過,這個(gè)天雷滾滾啊。
馮.諾依曼指出:“在每一門學(xué)科中,當(dāng)通過研究那些與終極目標(biāo)相比頗為樸實(shí)的問題,發(fā)展出一些可以不斷加以推廣的方法時(shí),這門學(xué)科就得到了巨大的進(jìn)展?!痹诎l(fā)展大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)中,不應(yīng)天天期盼奇跡出現(xiàn),而應(yīng)扎實(shí)多做“頗為樸實(shí)”的事,培育數(shù)據(jù)文化,打造大數(shù)據(jù)應(yīng)用環(huán)境,提高決策合理性,開拓新的數(shù)據(jù)應(yīng)用。
深有感觸,大數(shù)據(jù)推動(dòng)了企業(yè)的數(shù)據(jù)文化,大家對(duì)于數(shù)據(jù)有了新的認(rèn)識(shí)和充分的尊重,即使我們?cè)谟玫么蠖嗳匀皇切?shù)據(jù),那又如何,只要我們的心中的數(shù)據(jù)已經(jīng)足夠大。

關(guān)注公眾號(hào)
獲取更多行業(yè)資訊
本站文章內(nèi)容以及所涉數(shù)據(jù)、圖片等資料來源于網(wǎng)絡(luò),轉(zhuǎn)載目的在于傳遞更多信息。版權(quán)歸作者所有,文章僅代表作者觀點(diǎn),不代表華夏經(jīng)緯立場(chǎng)。 如涉及侵權(quán),請(qǐng)聯(lián)系管理員刪除。在法律許可的范圍內(nèi),華夏經(jīng)緯(廣州)數(shù)據(jù)科技股份有限公司享有最終解釋權(quán)。
相關(guān)新聞
- 2025消毒碗柜行業(yè)市場(chǎng)運(yùn)營(yíng)格局及銷售渠道分析
- 2025年人工智能+融合市場(chǎng):行業(yè)從“單點(diǎn)突破”到“生...
- 2025年防護(hù)鞋行業(yè)現(xiàn)狀與發(fā)展趨勢(shì)分析
- 2025在線地圖服務(wù)行業(yè)市場(chǎng)未來發(fā)展趨勢(shì)預(yù)測(cè)
- 2025年壁畫行業(yè)產(chǎn)業(yè)鏈結(jié)構(gòu)及投資分析
- 2025年極地機(jī)器人行業(yè)發(fā)展趨勢(shì)及產(chǎn)業(yè)鏈結(jié)構(gòu)
- 2025年服裝設(shè)計(jì)行業(yè)產(chǎn)業(yè)鏈結(jié)構(gòu)及前景預(yù)測(cè)
- 2025睫毛膏行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及競(jìng)爭(zhēng)格局、供需趨勢(shì)分...
- 2025年智能家居產(chǎn)業(yè)鏈全景、現(xiàn)狀與未來發(fā)展趨勢(shì)
- 2025年家具物流行業(yè)發(fā)展趨勢(shì)及供需分析