都說大數據時代已經來了,云計算和大數據將會是未來三十年科技革命的驅動力。而統計對大數據的生命力和應用價值都有著至關重要的作用。統計學用到了大量的數學及其它學科的專業知識,其應用范圍幾乎覆蓋了社會科學和自然科學的各個領域。
哥倫比亞大學教授Chris Blattman在給學生的建議中多次強調統計學的重要性,統計是要學會和理解的語言,不論未來的專業是什么,統計學都會極為有用。(哥大教授告訴你上大學前要知道的10件事,適用于每個孩子)
根據College Board官方說明,AP統計學涉及106個職業領域和32個大學專業,包括市場營銷、廣告、工程、計算機與信息技術、經濟金融、天文、教學、心理、物理等等。AP統計學相當于大學入門級統計學課程水平,隨著大數據在各行各業的應用,在美國的選修人數越來越多。
AP統計學考試分為選擇題和簡答題,包括數據分析(20-30%)、實驗設計(10-15%)、概率及分布(20-30%)、基于點估算的推論、置信區間、顯著性水平等(30-40%)四大部分內容。(聯系格為君索取AP統計學手冊)
AP統計學的題目一般比較長,解釋分析題目也需要一定的語言表達技巧。所以,AP統計學考試對題目的理解和解答方法的掌握至關重要,常用公式也要求爛熟于心第一個故事
假設所有20歲的中國人中,男女比例是1:1。現在要挑100個人出來,然后讓你來猜猜100人中的男女比例可能是多少。
那么我們就要考慮了,這100個人來自何方?
從解放軍中挑嗎?解放軍中女兵遠遠少于男兵,如果100人都來自解放軍,很可能挑到的全都是男生,一個女生也沒有。
那從護士中挑呢?恐怕情況就要反過來了,因為女護士遠遠多于男護士。所以,要使得一開始的假設“男女比例是1:1”不是一句廢話,這一百個人只能“隨機地”從所有20歲的中國人中去挑。
這個問題中“所有20歲的中國人的性別”叫做總體(population),被挑到的100個人的性別叫做樣本(sample)。
有同學可能會疑惑,為什么總體是“所有20歲中國人的性別”,只寫”所有20歲中國人“做總體不行嗎?答案是:不行。因為20歲的中國人身上有很多特征,比如身高、體重、IQ等等,我們現在只關注性別,所以總體必須具體到個體的特征。
在這個問題中,我們要做的是根據總體的性質來對樣本的性質進行估計(inference)。
但是要想通過總體的性質來估計樣本的性質,你所選取到的樣本必須有“有代表性”(representative),即樣本和總體之間是一一對應的關系。
就像現在這個問題,如果我們的分析目標是解放軍中的男女比例問題,那么總體就是20歲的解放軍中的男女比例,假設是 9:1吧。此時樣本就只能從20歲解放軍中隨機挑100個人,而不是從20歲的所有中國人中挑。
好了,接下來猜猜100人中,會全是男的嗎?會全是女的嗎?或者90%是男的,10%是女的嗎?當然我們不能完全排除這種可能,但這僅僅是一種可能。如果總體中的男女比例真是1:1,這三種情況都是不太可能發生的。那比較可能的是什么情況呢?
男生50%,女生50%,當然可能,但也不一定。完全有可能男生53%,女生47%. 你從總體中抽取不同的樣本,當然就會得到不同的結果。不同樣本之間的差異,叫做statistical error,注意error是誤差,不是錯誤。
在故事一中,我們是根據總體的情況,來分析樣本的情況,也就是說已知總體,分析樣本。第二個故事
仍然是考慮所有20歲的中國人中的男女比例問題。但出發點變了。現在我們不知道所有20歲中國人中的男女比例究竟是多少。我們要通過做試驗來對這個客觀存在,但我們不知道的比值進行估計。
那么這個試驗怎么做呢?
第一步挑樣本。
第二步做估計(estimation)。
有了第一個故事的基礎,這里就不贅述,這個樣本自然應該是從所有的20歲中國人中隨機抽取的。
假設現在你已經挑好了一個100人的樣本,樣本中男女比例是51:49。這種情況下,你會做出怎樣的估計呢?
如果是沒學過統計的同學,可能就會直接說,根據調查結果,所有20歲中國人中的男女比例就是51:49。但我們現在多思考一步,這個總體中的男女比例,就必然恰好是51:49嗎?就不會是51.1:48.9或者 50.9:49.1嗎? 畢竟,我們的調查僅僅分析了一個100人的樣本,并不是總體的全部。
當然,反過來考慮,總體中的男女比例,應該也不太可能是99:1的極端情況。因為如果總體中的男女比例真得是99:1的極端情況,我們挑選的100人的樣本中就不太可能能挑到女生了。
從這個角度我們就會發現:如果樣本比例是51:49,那么總體比例雖然不一定是51:49,但應該離著51:49不會太遠,而且是離著越近,可能越大。
我們以這個男性樣本比例( 51%)為中心,做一個區間(interval)出來,比如(46%, 56%),這個區間就叫做置信區間(confidence interval),我們剛剛完成的操作叫做區間估計(interval estimation)。總體中的男生比例以一定的概率(這個概率叫做置信水平confidence level)會處于這個置信區間內。
在這個故事中,我們是已知樣本,來估計總體。第三個故事
這個故事是由兩個人的爭論引起的。張三說:所有20歲的中國人中,男女比例是9:1。李四表示不相信,并決定用試驗推翻張三的結論。
于是李四去挑了一組樣本。結果發現李四挑的這組樣本中男女比例是50:50,和張三的假設相去甚遠。這說明什么問題呢?
1、如果張三關于總體的假設是成立的,即:20歲中國人中確實是男生比女生要多得多,這種情況下,李四挑到的就是一個一般不可能被挑到的樣本(因總體中男生比例遠遠高于女生,一般的樣本中男生比例也應該遠遠高于女生),即:李四中獎了。
2、一般情況下,我們認為隨機抽取的樣本不太可能“中獎”,即:李四的結論沒有問題。那么反過來,這就表示張三的假設有問題。
我們管這個操作叫做假設檢驗(hypothesis test)。
第三個故事仍然是從樣本出發,來分析總體,只不過是要對于總體的假設進行檢驗。
現在你是否對統計學有了一個大致的印象?
(以上三個統計學故事來自z____w的博客)

? 2025. All Rights Reserved. 滬ICP備2023009024號-1