亚洲伊人久久综合影院,久久无码人妻影院

重讀《大數(shù)據(jù)時代》：關于大數(shù)據(jù)的再認識

時間：2018-09-26 14:39 閱讀：1144 整理：市場調研公司

《大數(shù)據(jù)時代：生活、工作與思維的大變革》是被譽為“大數(shù)據(jù)時代的預言家”的牛津大學教授維克托.邁克-舍恩伯格所寫的一本經典大數(shù)據(jù)書籍，2013年筆者首讀此書，豁然開朗，其中很多的觀點振聾發(fā)聵，如果你還沒讀過此書，建議你可以讀一下。

一晃三年過去，筆者對于大數(shù)據(jù)也有了一些新的認識，無論是所謂的大數(shù)據(jù)帶來了思維方式上的變革，還是技術上的革命，或者商業(yè)模式或管理模式的改變，但從本質的角度講，大數(shù)據(jù)還沒有達到所謂的高度，即大數(shù)據(jù)時代，其與信息時代的計算機、集成電路、光纖通信，互聯(lián)網相比，目前還無法媲美，衡量大數(shù)據(jù)成功的標志，是是否推動了國家的人均信息消費水平達到一個新的高度(此句摘自李國杰院士)。

對于《大數(shù)據(jù)時代》此書提的很多觀點應該用辯證的方法來看待，以下筆者就一些認識上的一些爭議給出自己的理解，注意，后面有彩蛋，一定要看完哦：

“不是隨機樣本，而是全體數(shù)據(jù)”，實際大多并不是這樣

作者表達了一個觀點，“當數(shù)據(jù)處理技術已經發(fā)生了翻天覆地的變化時，在大數(shù)據(jù)時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了，我們需要的是所有的數(shù)據(jù)，“樣本=總體””。

這種說法表明了一種新的認知世界的方式，是一種新的趨勢，努力達到全量的確可以讓我們抓到了更多的細節(jié)，讓我們擺脫傳統(tǒng)統(tǒng)計分析學的束縛，就好比以前預測美國總統(tǒng)大選，采用的是民意抽樣統(tǒng)計，而如今已經可以對于社區(qū)用戶所有言論的判斷來更精準的預測。

但是，現(xiàn)實世界很殘酷，大多數(shù)領域你其實無法拿到全量的數(shù)據(jù)，或者，如果你要拿到全量的數(shù)據(jù)，代價極其巨大，因此，大多數(shù)時候，我們用的大數(shù)據(jù)仍是局部的小數(shù)據(jù)，沒有所謂“樣本=總體”的條件，傳統(tǒng)的以抽樣來理解這個世界的方式仍然有效，機器學習與統(tǒng)計學作為一種認知世界的方法也將持續(xù)有效，前期的AlphaGo與李世石的人機大戰(zhàn)。AlphaGo只能用采樣的方式獲得有限的棋局進行深度學習就是例證，因為你不可能拿到全部的樣本或者甚至是足夠的樣本，因為這個數(shù)量比全宇宙的原子還多。

當然，對于國際象棋和中國象棋上，全量的數(shù)據(jù)已經使得傳統(tǒng)勝負的玄妙缺失了意義，因此，可以這么大膽推測，當某個領域具備“樣本=總體”的時候，就是該領域被大數(shù)據(jù)替換的時刻。

“不是精確性，而是混雜性”，沒能力但不能否定精確性的價值

作者表達了這樣一個觀點，執(zhí)迷于精確性是信息時代和模擬時代的產物。只有5%的數(shù)據(jù)是結構化且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不接受混亂，剩下95%的非結構化數(shù)據(jù)都無法被利用，只有接受不精確性，我們才能打開一扇從未涉足的世界的窗戶，大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復雜算法更有效。

傳統(tǒng)數(shù)據(jù)處理追求“精確度”，這種思維方式適用于掌握“小數(shù)據(jù)量”的情況，因為需要分析的數(shù)據(jù)很少，所以我們必須盡可能精準地量化我們的記錄。大數(shù)據(jù)紛繁多樣，優(yōu)劣摻雜，分布廣泛。擁有了大數(shù)據(jù)，我們不再需要對一個現(xiàn)象刨根究底，只要掌握大體的發(fā)展方向即可,適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。

這段話說得沒錯，但我認為大數(shù)據(jù)的復雜算法對于認識這個世界更為重要，對于精準性的把握始終是我們的目標，只是因為我們現(xiàn)在的算法太弱了，無法駕馭大數(shù)據(jù)，才提簡單的算法。

比如，在工業(yè)界一直有個很流行的觀點：在大數(shù)據(jù)條件下，簡單的機器學習模型會比復雜模型更加有效。例如，在很多的大數(shù)據(jù)應用中，最簡單的線性模型得到大量使用。而最近深度學習的驚人進展，促使我們也許到了要重新思考這個觀點的時候。簡而言之，在大數(shù)據(jù)情況下，也許只有比較復雜的模型，或者說表達能力強的模型，才能充分發(fā)掘海量數(shù)據(jù)中蘊藏的豐富信息。運用更強大的深度模型，也許我們能從大數(shù)據(jù)中發(fā)掘出更多有價值的信息和知識。

為了理解為什么大數(shù)據(jù)需要深度模型，先舉一個例子。語音識別已經是一個大數(shù)據(jù)的機器學習問題，在其聲學建模部分，通常面臨的是十億到千億級別的訓練樣本。在Google的一個語音識別實驗中，發(fā)現(xiàn)訓練后的DNN對訓練樣本和測試樣本的預測誤差基本相當。這是非常違反常識的，因為通常模型在訓練樣本上的預測誤差會顯著小于測試樣本。因此，只有一個解釋，就是由于大數(shù)據(jù)里含有豐富的信息維度，即便是DNN這樣的高容量復雜模型也是處于欠擬合的狀態(tài)，更不必說傳統(tǒng)的GMM聲學模型了。所以從這個例子中我們看出，大數(shù)據(jù)需要復雜深度學習，毫無疑問AlphGo也必定是欠擬合的。

“不是因果關系，而是相關關系”，追求真理是我們永恒的目標

作者提出了這樣一個觀點，尋找因果關系是人類長久以來的習慣。即使確定因果關系很困難而且用途不大，人類還是習慣性地尋找緣由。在大數(shù)據(jù)時代，我們無須再緊盯事物之間的因果關系，不再把分析建立在早已設立的假設的基礎之上。而應該尋找事物之間的相關關系，讓大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。

一方面，應該承認基于大數(shù)據(jù)的相關關系是我們認識世界和改造世界的新的方式，從應用科學的角度講，降低對于因果關系的追求可以讓大數(shù)據(jù)創(chuàng)造更大的價值。

另一方面，當前階段由于我們對于世界的認知太少，人類在有限的時間內不可能找到“終極真理”，大量的規(guī)律通過大數(shù)據(jù)暴露出了蛛絲馬跡，即所謂的相關關系，但其本質上仍是因果關系的體現(xiàn)，因此兩者并不沖突。一個解決當前問題，是近，一個解決長期問題，是遠，兩者相輔相成，無所謂誰替代誰。從社會角度來講，企業(yè)可以致力于大數(shù)據(jù)相關關系來創(chuàng)造更多的商機，而因果關系仍然是基礎研究需要追求的東西，不能說人類物質上滿足了，就不去追求更為本原的東西。

同時，大數(shù)據(jù)方法也可以發(fā)現(xiàn)因果關系，2014年，美國國防高級研究計劃局啟動其“大機理”項目。目的是發(fā)展可以發(fā)現(xiàn)隱藏在大數(shù)據(jù)中因果模型。典型“大機理”例子就是，1854年的倫敦地圖顯示爆發(fā)霍亂和污染的公共水泵之間的聯(lián)系。該發(fā)現(xiàn)推翻了當時認為疾病是通過空氣傳播的認識。大機理包含在巨大的、零碎的、有時相互矛盾的文獻和數(shù)據(jù)庫中，所以，沒有任何一個人可以理解該如此復雜的系統(tǒng)，所以必須依靠計算機。

DARPA辦公室最初使用“大機理”工具來研究導致細胞癌變的復雜分子之間的相互作用。該方法包括使用電腦掃描癌癥類論文，來獲取癌癥路徑的有關數(shù)據(jù)。獲取的數(shù)據(jù)片段可以組成”前所未有規(guī)模和精度”的完整路徑，以此來確定傳遞路徑如何互動。最后，自動工具可以幫助確定因果關系，該因果關系可用來開發(fā)潛在治療癌癥的方法?？贫髡f：“分子生物學和癌癥文獻強調機理，論文描述蛋白質如何影響其它蛋白質的表達，這些影響如何產生生物效果。電腦應該可以被用來分析這些癌癥類論文中的因果關系?！蓖ㄟ^強調因果模型和解釋，大機理將成為科學的未來。

“小數(shù)據(jù)的問題，大數(shù)據(jù)就能解決”，大數(shù)據(jù)并沒有解決小數(shù)據(jù)問題

大數(shù)據(jù)體現(xiàn)了4V特征，但我們現(xiàn)在碰到的數(shù)據(jù)仍是主要是小數(shù)據(jù)，我們應該抱著務實的態(tài)度去解決小數(shù)據(jù)的問題，小數(shù)據(jù)的問題并不會由于大數(shù)據(jù)的產生而自動解決。

統(tǒng)計學家們花了200多年，總結出認知數(shù)據(jù)過程中的種種陷阱，這些陷阱并沒有被填平，比如采樣，大數(shù)據(jù)中有大量的小數(shù)據(jù)問題，這些問題不會隨著數(shù)據(jù)量的增大而消失，要注意數(shù)據(jù)(樣本)的偏差，比如Google的流感預測為什么近3年失敗，因為其隨機性實際不夠，比如媒體對于流感流行的報道會增加與流感相關的詞匯的搜索次數(shù)，進而影響Google的預測，對谷歌大肆炒作的流感跟蹤系統(tǒng)的研究結果發(fā)現(xiàn)，該系統(tǒng)多年來一直高估美國的流感病例。這項失敗凸顯了依賴大數(shù)據(jù)技術的危險性。

“谷歌在2008年推出的流感趨勢系統(tǒng)監(jiān)測全美的網絡搜索，尋找與流感相關的詞語，比如“咳嗽”和“發(fā)燒”等。它利用這些搜索來提前9個星期預測可能與流感相關的就醫(yī)量。在過去3年，該系統(tǒng)一直高估與流感相關的就醫(yī)量，在這類數(shù)據(jù)最有用的流感季節(jié)高峰期尤其預測不準確。在2012/2013流感季節(jié)，它預測的就醫(yī)量是美國疾控中心(CDC)最終記錄結果的兩倍;在2011/2012流感季節(jié)，它高估了逾50%?！?

發(fā)人深省的彩蛋觀點，關于啤酒和尿布有點雷

(1)數(shù)據(jù)化，而不是數(shù)字化

所謂的數(shù)字化指的是把模擬數(shù)據(jù)轉換成用0和1表示的二進制碼，而數(shù)據(jù)化是指把現(xiàn)象轉變成可制表分析的量化形式的過程，舉個例子，我們掃描實體書成為電子書，如果保存形式是圖片，這個只能叫作數(shù)字化，而我們通過字符識別軟件進行了文本解析，圖像就變成了數(shù)據(jù)化文本，兩者有本質的不同，萬物只有數(shù)據(jù)化后，才可以被量化，我們才能通過量化后的數(shù)據(jù)創(chuàng)造更多的價值。美國政府在提數(shù)據(jù)開放的時候，強調了開放的數(shù)據(jù)必須是可以有機讀的，就是這個意思，一個PDF的信息量跟一個WORD的信息量顯然是不一樣的。

(2)應用為王，不要迷信技術

目前各類企業(yè)都在建設大數(shù)據(jù)中心，但成本其實很大，當前的新的信息技術層出不窮，不斷冒出新概念，新名詞，大數(shù)據(jù)技術其實還在不停的發(fā)展，現(xiàn)階段，應該充分考慮成本因素，抱著應用為先的態(tài)度，技術始終要為應用服務，我們應該致力于用技術解決業(yè)務問題，而不是被潮流技術牽著鼻子走。不用迷信Google等技術公司的創(chuàng)新,有的放矢的借鑒，BAT做得足夠好，不要去貶低這些公司的技術創(chuàng)新性，不要用Google的AlphGo去鄙視百度的人工智能，應用始終為王，百度發(fā)明的人工智能輸入實際應用意義可能遠大于AlphaGo。

(3)隱私問題，不是那么簡單

告知與許可也許已經是世界各地執(zhí)行隱私政策的基本法則，但這個法則有問題，大數(shù)據(jù)時代，很多數(shù)據(jù)在收集時并無意用于其它用途，但最終往往是二次開發(fā)利用創(chuàng)造了價值，公司無法告知用戶尚未想到的用途，而個人也無法同意這種尚是未知的用途。如果谷歌要使用檢測詞預測流感的話，必須征得數(shù)億用戶的同意，就算沒有技術障礙，有哪個公司能負擔得起。

同樣，所謂的匿名化在小數(shù)據(jù)時代的確可以，但是隨著數(shù)據(jù)量和種類的增多，大數(shù)據(jù)促進了數(shù)據(jù)內容的交叉檢驗。

政府在未來制定相關法規(guī)的時候，應該充分尊重事實，也許提前預防永遠無法解決大數(shù)據(jù)應用和隱私問題。

(4)大數(shù)據(jù)的驅動效應

大家所說的大數(shù)據(jù)是沙里淘金，大海撈針，導致人們總是渴望從大數(shù)據(jù)挖掘出意想不到的“價值”。實際上大數(shù)據(jù)更大的價值是帶動有關的科研和產業(yè)，提高個行業(yè)通過數(shù)據(jù)分析解決困難問題和增值的能力，大數(shù)據(jù)價值體現(xiàn)在它的驅動效益。

所謂的“啤酒與尿布”的數(shù)據(jù)挖掘經典案例，其實是Teradata公司的一位經理編造出來的“故事”，歷史上并沒有發(fā)生過，這個天雷滾滾啊。

馮.諾依曼指出：“在每一門學科中，當通過研究那些與終極目標相比頗為樸實的問題，發(fā)展出一些可以不斷加以推廣的方法時，這門學科就得到了巨大的進展?！痹诎l(fā)展大數(shù)據(jù)技術和產業(yè)中，不應天天期盼奇跡出現(xiàn)，而應扎實多做“頗為樸實”的事，培育數(shù)據(jù)文化，打造大數(shù)據(jù)應用環(huán)境，提高決策合理性，開拓新的數(shù)據(jù)應用。

深有感觸，大數(shù)據(jù)推動了企業(yè)的數(shù)據(jù)文化，大家對于數(shù)據(jù)有了新的認識和充分的尊重，即使我們在用得大多仍然是小數(shù)據(jù)，那又如何，只要我們的心中的數(shù)據(jù)已經足夠大。

關注公眾號
獲取更多行業(yè)資訊

免責聲明：
本站文章內容以及所涉數(shù)據(jù)、圖片等資料來源于網絡，轉載目的在于傳遞更多信息。版權歸作者所有，文章僅代表作者觀點，不代表華夏經緯立場。如涉及侵權，請聯(lián)系管理員刪除。在法律許可的范圍內，華夏經緯（廣州）數(shù)據(jù)科技股份有限公司享有最終解釋權。

国产精品第12页_欧美艳星nikki激情办公室_亚洲精品无码久久千人斩_成人免费毛片aaaaaa片_国精品99久9在线 | 免费

華夏經緯北京

行業(yè)動態(tài)

重讀《大數(shù)據(jù)時代》：關于大數(shù)據(jù)的再認識

相關新聞