統計學和機器學習之間的界定一直很模糊。
無論是業界還是學界一直認為機器學習只是統計學批了一層光鮮的外衣。
而機器學習支撐的人工智能也被稱為“統計學的外延”
例如,諾獎得主托馬斯·薩金特曾經說過人工智能其實就是統計學,只不過用了一個很華麗的辭藻。
他在世界科技創新論壇上表示,人工智能其實就是統計學
當然也有一些不同的聲音。但是這一觀點的正反雙方在爭吵中充斥著一堆看似高深實則含糊的論述,著實讓人摸不著頭腦。
一位名叫Matthew Stewart的哈佛大學博士生從統計與機器學習的不同;統計模型與機器學習的不同,這兩個角度論證了機器學習和統計學并不是互為代名詞。
與大部分人所想的正相反,機器學習其實已經存在幾十年了。當初只是因為那時的計算能力無法滿足它對大量計算的需求,而漸漸被人遺棄。然而,近年來,由于信息爆炸所帶來的數據和算力優勢,機器學習正快速復蘇。
言歸正傳,如果說機器學習和統計學是互為代名詞,那為什么我們沒有看到每所大學的統計學系都關門大吉而轉投'機器學習'系呢?因為它們是不一樣的!
"機器學習和統計的主要區別在于它們的目的。機器學習模型旨在使最準確的預測成為可能。統計模型是為推斷變量之間的關系而設計的。
雖然技術上來說這是正確的,但這樣的論述并沒有給出特別清晰和令人滿意的答案。機器學習和統計之間的一個主要區別確實是它們的目的。
然而,說機器學習是關于準確的預測,而統計模型是為推理而設計,幾乎是毫無意義的說法,除非你真的精通這些概念。
首先,我們必須明白,統計和統計建模是不一樣的。統計是對數據的數學研究。除非有數據,否則無法進行統計。統計模型是數據的模型,主要用于推斷數據中不同內容的關系,或創建能夠預測未來值的模型。通常情況下,這兩者是相輔相成的。
因此,實際上我們需要從兩方面來論述:第一,統計與機器學習有何不同;第二,統計模型與機器學習有何不同?
說的更直白些就是,有很多統計模型可以做出預測,但預測效果比較差強人意。
而機器學習通常會犧牲可解釋性以獲得強大的預測能力。例如,從線性回歸到神經網絡,盡管解釋性變差,但是預測能力卻大幅提高。
從宏觀角度來看,這是一個很好的答案。至少對大多數人來說已經足夠好。然而,在有些情況下,這種說法容易讓我們對機器學習和統計建模之間的差異產生誤解。讓我們看一下線性回歸的例子。

或許是因為統計建模和機器學習中使用方法的相似性,使人們認為它們是同一個東西。對這我可以理解,但事實上不是這樣。
最明顯的例子是線性回歸,這可能是造成這種誤解的主要原因。線性回歸是一種統計方法,通過這種方法我們既可以訓練一個線性回歸器,又可以通過最小二乘法擬合一個統計回歸模型。
可以看到,在這個案例中,前者做的事兒叫"訓練"模型,它只用到了數據的一個子集,而訓練得到的模型究竟表現如何需要通過數據的另一個子集測試集測試之后才能知道。在這個例子中,機器學習的最終目的是在測試集上獲得最佳性能。
對于后者,我們則事先假設數據是一個具有高斯噪聲的線性回歸量,然后試圖找到一條線,最大限度地減少了所有數據的均方誤差。不需要訓練或測試集,在許多情況下,特別是在研究中(如下面的傳感器示例),建模的目的是描述數據與輸出變量之間的關系, 而不是對未來數據進行預測。我們稱此過程為統計推斷,而不是預測。盡管我們可以使用此模型進行預測,這也可能是你所想的,但評估模型的方法不再是測試集,而是評估模型參數的顯著性和健壯性。
機器學習(這里特指有監督學習)的目的是獲得一個可反復預測的模型。我們通常不關心模型是否可以解釋。機器學習只在乎結果。就好比對公司而言,你的價值只用你的表現來衡量。而統計建模更多的是為了尋找變量之間的關系和確定關系的顯著性,恰巧迎合了預測。
有一個誤解存在了10年:僅基于它們都利用相同的基本概率概念這一事實,來混淆這兩個術語是不合理的。

然而,僅僅基于這兩個術語都利用了概率里相同的基本概念這一事實而將他們混為一談是不合理的。就好比,如果我們僅僅把機器學習當作皮了一層光鮮外衣的統計,我們也可以這樣說:
物理只是數學的一種更好聽的說法。
動物學只是郵票收藏的一種更好聽的說法。
建筑學只是沙堡建筑的一種更好聽的說法。
這些說法(尤其是最后一個)非常荒謬,完全混淆了兩個類似想法的術語。
實際上,物理是建立在數學基礎上的,理解現實中的物理現象是數學的應用。物理學還包括統計學的各個方面,而現代統計學通常是建立在Zermelo-Frankel集合論與測量理論相結合的框架中,以產生概率空間。它們有很多共同點,因為它們來自相似的起源,并運用相似的思想得出一個邏輯結論。同樣,建筑學和沙堡建筑可能有很多共同點,但即使我不是一個建筑師,也不能給出一個清晰的解釋,但也看得出它們顯然不一樣。
在我們進一步討論之前,需要簡要澄清另外兩個與機器學習和統計有關的常見誤解。這就是人工智能不同于機器學習,數據科學不同于統計學。這些都是沒有爭議的問題,所以很快就能說清楚。

? 2025. All Rights Reserved. 滬ICP備2023009024號-1