如何看待統(tǒng)計模型
時間:2018-12-25 15:06 閱讀:1310 整理:市場調(diào)研公司
統(tǒng)計模型法是統(tǒng)計學(xué)的最基本研究方法之一,略復(fù)雜一點(diǎn)的統(tǒng)計分析通常就會借助統(tǒng)計模型。一般地,統(tǒng)計模型可以分類為參數(shù)模型與非參數(shù)模型、線性模型與非線性模型、一元模型與多元模型等等,應(yīng)用領(lǐng)域十分廣泛。然而,統(tǒng)計學(xué)家George Box曾經(jīng)說過:所有的模型都是錯的,但有些是有用的。我們該如何理解其中的意思?
所謂統(tǒng)計模型,顧名思義就是用以刻畫、反映現(xiàn)象發(fā)展變化趨勢、或測度不同現(xiàn)象之間內(nèi)在聯(lián)系關(guān)系、或據(jù)以推斷總體特征的數(shù)學(xué)方程,所以模型構(gòu)建的過程,就是把上述趨勢、關(guān)系和特征進(jìn)行量化的過程,因而統(tǒng)計模型的關(guān)鍵詞就是變量、參數(shù)和方程形式。衡量統(tǒng)計模型的構(gòu)建是否成功,就看其中的變量、參數(shù)和方程形式是否符合所研究問題的實(shí)際情況而渾然一體。
為什么說所有的統(tǒng)計模型都是錯的呢?我想可以這樣來理解:首先,統(tǒng)計模型畢竟只是用一定的方程給出一個模擬的型態(tài),由于不知道所研究問題的實(shí)際情況,所以模擬的過程沒有真實(shí)的參照物,只能根據(jù)已經(jīng)掌握了的有關(guān)信息去勾勒其可能的狀態(tài),因而它不是真實(shí)的,與實(shí)際情況不可能完全一致。其次,統(tǒng)計模型的構(gòu)建有很多假設(shè)條件或限制條件,這些假設(shè)通常由一組概率分布來描述,其中一些概率分布被假定為充分近似于對特定總體進(jìn)行抽樣的分布,因此,統(tǒng)計模型只是以相當(dāng)理想化的形式來表示所研究問題的數(shù)據(jù)生成過程,是統(tǒng)計推斷理論的形式化表示,而這些假設(shè)條件或者分布往往是不嚴(yán)格成立的,有時甚至差距很大。第三,統(tǒng)計模型由與一個或多個變量相關(guān)的數(shù)學(xué)方程來確定,確定的依據(jù)是已掌握的樣本數(shù)據(jù)或歷史數(shù)據(jù),是樣本數(shù)據(jù)(歷史數(shù)據(jù))與方程形式固化的理想結(jié)果,因此在據(jù)以進(jìn)行放大推斷或外推預(yù)測時,實(shí)際情況不可能與模型保持一致。第四,在統(tǒng)計模型中,我們通常都把涉及到的變量當(dāng)成隨機(jī)變量來處理,而事實(shí)上很多變量、特別是社會經(jīng)濟(jì)統(tǒng)計變量并不是完全的隨機(jī)變量而是半隨機(jī)變量,因此,基于隨機(jī)變量假設(shè)的統(tǒng)計模型不能很好地刻畫半隨機(jī)變量的統(tǒng)計數(shù)據(jù)特征。第五,就同一個研究問題而言,可以構(gòu)建的統(tǒng)計模型絕對不止一個,無論是方程形式、變量及其個數(shù)、參數(shù)設(shè)定還是有關(guān)假設(shè),都可以有多種選擇,沒有公認(rèn)的評判標(biāo)準(zhǔn),在不可能構(gòu)建出所有統(tǒng)計模型的情況下,只能按照一定的原則給出其中的一個模型。綜上所述,沒有一個統(tǒng)計模型可以做到與實(shí)際情況完全一致,有些還相差甚遠(yuǎn),因而所有統(tǒng)計模型都是錯的。如果依賴統(tǒng)計模型就能解決實(shí)際問題,那么世界就變得簡單了,而事實(shí)并非如此。
但為什么又說有些是可用的?我認(rèn)為其理由在于,統(tǒng)計研究作為量化認(rèn)識事物本質(zhì)特征的方式,就是要用統(tǒng)計數(shù)據(jù)去描述事物特征,以統(tǒng)計規(guī)律去逼近事物的本質(zhì)規(guī)律,而統(tǒng)計模型則是發(fā)現(xiàn)和描述統(tǒng)計規(guī)律的有效工具之一。當(dāng)基于統(tǒng)計模型的統(tǒng)計規(guī)律能夠比較好地解釋客觀事物的問題、本質(zhì)和發(fā)展趨勢時,它就是有用的。也就是說,統(tǒng)計模型是否有用,取決于它對現(xiàn)實(shí)問題的定量解釋能力。那么,其定量解釋能力來自何處?這才是問題的關(guān)鍵。我認(rèn)為它來自于對所研究問題的了解程度,來自于對涉及變量的解讀及其關(guān)系的判斷程度,來自于相關(guān)假設(shè)條件的滿足以及對它們的把控程度,來自于數(shù)學(xué)方程的適應(yīng)性和可解性,來自于構(gòu)建模型所需數(shù)據(jù)的真實(shí)性和可取得性。只有當(dāng)這些方面都達(dá)到相當(dāng)高的程度時,統(tǒng)計模型才具有足夠的定量解釋能力,才有意義。然而在現(xiàn)實(shí)中,并非所有的統(tǒng)計模型都能做到這些要求,通常只有一部分符合這些要求,所以說“有些”是“有用”的。由此可見,要想構(gòu)建一個可用的統(tǒng)計模型絕非易事,需要做大量的工作。
這里,我們再借用一個例子來說明“所有的模型都是錯的,但有些是有用的”這句話的道理。我們身上的服裝,絕大多數(shù)情況下都是商場購買的成衣,很少量身定做。廠家如何批量生產(chǎn)服裝?依靠模型。服裝模型對于能否生產(chǎn)出受消費(fèi)者歡迎的款式十分重要,它需要考慮的尺寸變量少則幾十個,多則上百個。它需要先根據(jù)特定消費(fèi)者群體的身高體胖特征分成若干組(大、中、小),然后每一組再設(shè)定幾個款型(松、緊)。由于人的身高體重可以通過調(diào)查觀察掌握其大致分布規(guī)律,因此設(shè)定若干比較合適的服裝模型是可以做到的。最后被確定用以生產(chǎn)服裝的模型,是從大量的設(shè)計模型中篩選出來的。嚴(yán)格地講(即就消費(fèi)者個體而言),任何一個服裝模型都是錯的,因?yàn)樗疾皇歉鶕?jù)消費(fèi)者個人的身材來制定的,都只是消費(fèi)者群組中各個變量的平均值,消費(fèi)者只能按照靠近原則選擇尺碼最適合的服裝。但實(shí)踐證明,這些服裝模型是有用的,因?yàn)樗痉狭颂囟ㄏM(fèi)者群體身高體胖的分布特征,多數(shù)消費(fèi)者可以選擇到尺碼比較合適的服裝。少部分消費(fèi)者選擇不到尺碼合適的服裝,就相當(dāng)于統(tǒng)計模型中的誤差。部隊(duì)服裝的供給,也是根據(jù)這個原理。
總之,模型是固化的,而現(xiàn)實(shí)是變化的。用固化的模型去反映動態(tài)的現(xiàn)實(shí),只能是一種參考。所以,我們在開展統(tǒng)計分析時,要一分為二地看待統(tǒng)計模型,既不能輕易否定統(tǒng)計模型的作用,也不能盲目崇拜統(tǒng)計模型,而是要一切從實(shí)際出發(fā),根據(jù)問題本質(zhì)來考慮是否需要借助統(tǒng)計模型、需要構(gòu)建什么樣的統(tǒng)計模型以及如何構(gòu)建統(tǒng)計模型。特別需要指出的是,我們應(yīng)該努力避免濫用統(tǒng)計模型的現(xiàn)象。現(xiàn)在有一種普遍觀點(diǎn),認(rèn)為沒有統(tǒng)計模型的統(tǒng)計分析是沒有深度的。無論是公開出版的期刊論文,還是學(xué)士、碩士和博士論文,都大量充斥著各種各樣的統(tǒng)計模型。在有些學(xué)科領(lǐng)域,有無統(tǒng)計模型成了衡量論文水平的不二法則。在這樣的導(dǎo)向下,很多論文就生搬硬套統(tǒng)計模型,不顧所討論問題的背景和本質(zhì),不管有關(guān)假設(shè)條件是否滿足,不論作為建模依據(jù)的內(nèi)在機(jī)理是否清晰,不究相關(guān)變量之間的內(nèi)在聯(lián)系是否成立,就給出了所謂漂亮的模型。有些統(tǒng)計模型構(gòu)建者,甚至都沒有弄明白要做什么,沒有讀懂統(tǒng)計指標(biāo)的含義和數(shù)據(jù)的意義,就“調(diào)”出了自稱理想的結(jié)果,細(xì)細(xì)一究,卻是自相矛盾、漏洞百出,難以自圓其說。有些文獻(xiàn)的所謂研究結(jié)論,其實(shí)根本不需要統(tǒng)計模型就顯而易見,利用統(tǒng)計模型充其量只是論證了“吃飽了就不餓”,純粹是為了模型而模型。有的統(tǒng)計模型,自始至終不斷地假設(shè)、不斷地推演,正如弗里德曼學(xué)說所認(rèn)為的那樣“模型的假設(shè)是什么無關(guān)緊要”,從而實(shí)際問題變成了數(shù)學(xué)推導(dǎo),應(yīng)該有實(shí)際意義的定量結(jié)論變成了抽象的數(shù)字,使人難以理解其所表達(dá)的意思。在這種情況下,“假設(shè)”就成了掩蓋事實(shí)的遮羞布。有的文獻(xiàn),把簡單問題復(fù)雜化,明明依靠簡單的統(tǒng)計模型就可以說明問題,但為了追求所謂的學(xué)術(shù)性,偏要搞一大堆符號和公式,非要繞大圈子去建一個復(fù)雜的模型,生怕讀者輕易地讀懂文章的內(nèi)容而影響其“高大上”。凡此種種,都不是科學(xué)求是的精神。
統(tǒng)計模型是統(tǒng)計分析的重要工具,但用在哪里、怎么用大有講究,千萬不能隨心所欲。歸根結(jié)底,統(tǒng)計模型是為定量分析服務(wù)的,是輔助性的,而正確理解問題的本質(zhì)、指標(biāo)(變量)的含義和數(shù)據(jù)的意義,科學(xué)測度所研究事物的特征,才是根本。我們在利用統(tǒng)計模型開展統(tǒng)計分析研究時,絕不能唯模型是論,不能本末倒置。一定要以“需要、合適、精煉”為原則,把主要功夫花在弄懂問題、讀懂指標(biāo)含義和數(shù)據(jù)意義上。否則,那就真的成了“所有的統(tǒng)計模型都是錯的”,沒有可用的了。
真正的高手是化繁為簡。在需要的情況下,如何在看清問題和讀懂?dāng)?shù)據(jù)之后,用簡明、合適的統(tǒng)計模型給出人們?nèi)菀桌斫獾姆治鼋Y(jié)論,是我們共同追求的目標(biāo)。特別是在進(jìn)入大數(shù)據(jù)時代以后,如何對大數(shù)據(jù)(尤其是非結(jié)構(gòu)化數(shù)據(jù))構(gòu)建統(tǒng)計模型,無論是思維方式還是具體方法,都是我們需要面對的新挑戰(zhàn)。

關(guān)注公眾號
獲取更多行業(yè)資訊
本站文章內(nèi)容以及所涉數(shù)據(jù)、圖片等資料來源于網(wǎng)絡(luò),轉(zhuǎn)載目的在于傳遞更多信息。版權(quán)歸作者所有,文章僅代表作者觀點(diǎn),不代表華夏經(jīng)緯立場。 如涉及侵權(quán),請聯(lián)系管理員刪除。在法律許可的范圍內(nèi),華夏經(jīng)緯(廣州)數(shù)據(jù)科技股份有限公司享有最終解釋權(quán)。
相關(guān)新聞
- 2025消毒碗柜行業(yè)市場運(yùn)營格局及銷售渠道分析
- 2025年人工智能+融合市場:行業(yè)從“單點(diǎn)突破”到“生...
- 2025年防護(hù)鞋行業(yè)現(xiàn)狀與發(fā)展趨勢分析
- 2025在線地圖服務(wù)行業(yè)市場未來發(fā)展趨勢預(yù)測
- 2025年壁畫行業(yè)產(chǎn)業(yè)鏈結(jié)構(gòu)及投資分析
- 2025年極地機(jī)器人行業(yè)發(fā)展趨勢及產(chǎn)業(yè)鏈結(jié)構(gòu)
- 2025年服裝設(shè)計行業(yè)產(chǎn)業(yè)鏈結(jié)構(gòu)及前景預(yù)測
- 2025睫毛膏行業(yè)市場發(fā)展現(xiàn)狀及競爭格局、供需趨勢分...
- 2025年智能家居產(chǎn)業(yè)鏈全景、現(xiàn)狀與未來發(fā)展趨勢
- 2025年家具物流行業(yè)發(fā)展趨勢及供需分析