ap統(tǒng)計(jì)學(xué)難嗎?根據(jù)數(shù)據(jù)顯示,2020年網(wǎng)考時(shí),AP統(tǒng)計(jì)考生人數(shù)高達(dá)18萬。在AP理科中,統(tǒng)計(jì)考試占比僅次于微積分AB和生物。但是,對(duì)于AP統(tǒng)計(jì)的難度評(píng)價(jià)卻不一。有些考生認(rèn)為統(tǒng)計(jì)比微積分還難,學(xué)了半天也無法理解;而有些考生則認(rèn)為統(tǒng)計(jì)是AP中最簡(jiǎn)單的一科,學(xué)一學(xué)就能拿到4分,稍微努力一下就能得到5分。
實(shí)際上,AP統(tǒng)計(jì)的難度與眾不同。雖然在統(tǒng)計(jì)中幾乎沒有復(fù)雜的計(jì)算,但是其中的概念卻相當(dāng)復(fù)雜,需要逐級(jí)理解。重點(diǎn)并不在于數(shù)學(xué)解題的邏輯思維,而是如何將這些概念應(yīng)用到實(shí)際問題中。因此,學(xué)生們需要花時(shí)間去理解和掌握統(tǒng)計(jì)中的各種概念,才能在考試中取得好成績(jī)。
抽樣 Sampling
我們常說的抽樣檢測(cè)就是AP統(tǒng)計(jì)的范圍,一個(gè)抽樣(Sampling),一個(gè)實(shí)驗(yàn)(Experiment),最后進(jìn)行假設(shè)檢驗(yàn)(Hypothesis test),這就成功完成了一個(gè)研究。這類的基礎(chǔ)知識(shí),是無論進(jìn)行哪一個(gè)理科科目地學(xué)習(xí)都必須要具備的。所以超級(jí)重要,好好學(xué)!
簡(jiǎn)單來說,抽樣(Sampling)就是從總體(population)中提出樣本(sample)的過程。目的就是為了省事,不用對(duì)(量大的)總體進(jìn)行一個(gè)個(gè)檢測(cè),而是通過測(cè)其中一些有代表性的樣本數(shù)據(jù)再反推總體的數(shù)據(jù)。 而最簡(jiǎn)單的也是我們常說的抽樣方式,就是簡(jiǎn)單隨機(jī)抽樣(Simple Random Sampling),從總體中隨機(jī)抽取樣本。那么如何做到隨機(jī),這時(shí)統(tǒng)計(jì)就派上用場(chǎng)了。1. 把總體中每個(gè)個(gè)體的數(shù)字作為標(biāo)簽2. 通過計(jì)算器,隨機(jī)產(chǎn)生幾個(gè)數(shù)字3. 這些選出的數(shù)字所對(duì)應(yīng)的個(gè)體,就組成了我們所需要的樣本。
其實(shí),就是以數(shù)字的方式代替所有的人或物,再通過數(shù)學(xué)的方法進(jìn)行隨機(jī)抽取。
除了最直接的簡(jiǎn)單隨機(jī)抽樣,還有幾種適合不同場(chǎng)景的抽樣調(diào)查方法。比如考試經(jīng)常出現(xiàn)的分層隨機(jī)抽樣(Stratifiedrandom sampling)和整群隨機(jī)抽樣(Cluster random sampling)。
分層隨機(jī)抽樣(Stratifiedrandom sampling)是先將總體按照一個(gè)標(biāo)準(zhǔn)分層,每層中抽取固定個(gè)數(shù)的個(gè)體,組成樣本。這種方式的適用場(chǎng)景是在總體分層后,每層的差距比較大,不過層內(nèi)部的個(gè)體差異不大。

比如:當(dāng)校長(zhǎng)想要知道這個(gè)高中里學(xué)生對(duì)學(xué)校的滿意度,可以根據(jù)年級(jí)把所有學(xué)生分三層,每個(gè)年級(jí)是一層。再?gòu)拿總€(gè)年級(jí)的學(xué)生中都挑20個(gè),最后一共有60人被抽出,也就是樣本。這種時(shí)候同一年級(jí),也就是同一層的學(xué)生差距并不大,學(xué)的知識(shí)都差不多。但是高一和高三的學(xué)生比,就相差比較多。
這是我們所說的適用于分層隨機(jī)抽樣的情況。
整群隨機(jī)抽樣(clusterrandom sampling)則是和分層隨機(jī)抽樣完全相反的另一種方法。是在總體分組后,隨機(jī)抽取其中一或多個(gè)組的所有個(gè)體成為樣本。這種方式適用于組和組之間差距不大,但是組內(nèi)多樣性高的情況。
比如:想要知道高三年級(jí)的同學(xué)在數(shù)學(xué)課堂上的表現(xiàn),可以先根據(jù)班,把所有學(xué)生分成不同組,一個(gè)班為一組。直接抽取其中兩個(gè)班,各做一次公開課就能得到結(jié)果。這時(shí)班和班的差距其實(shí)并不大(沒有實(shí)驗(yàn)班),但是班級(jí)內(nèi)部有很喜歡聽課的同學(xué),也有很不喜歡上課的同學(xué),這會(huì)導(dǎo)致差異性比較大。
和分層隨機(jī)抽樣相比,整群隨機(jī)抽樣的操作難度一下子降低了,不用到處跑來跑去拜訪所有層,但是大多時(shí)候很難像分層隨機(jī)抽樣,保證樣本足夠多樣性。
選擇合適的抽樣方式,并且能通順不出錯(cuò)地寫出來可是超級(jí)超級(jí)超級(jí)重要的!
比如,某年真題考到量森林中樹的維度:一共上百畝的森林,可以選擇整群抽樣,只隨機(jī)測(cè)幾畝森林里所有樹的維度,這樣肯定方便。但更好的方式則是在每一畝都挑幾棵樹來測(cè)維度,雖然麻煩,但是因?yàn)槊恳划€地的陽光,土壤資源都不一樣,這樣的方式保證了樣本和總體更加匹配。
最后還有一種隨機(jī)抽樣的方法,叫做等距抽樣(Systematic random sampling)。第一步不再是分組,而是要把總體中的所有個(gè)體按某種順序排列,抽取每次的第k個(gè)作為樣本。這種與眾不同的方法在考試中并沒有前面三種考的頻繁,但也是重點(diǎn)之一。
舉個(gè)例子:籃球隊(duì)選參賽人,先按照高矮個(gè)把所有人排好順序,從中抽取第三個(gè),第六個(gè),第九個(gè),第十二個(gè)......作為樣本(其實(shí)就是每次的第三個(gè))。這種方法固然可以保證樣本與總體的相似性,但也要注意避免讓排列好的總體有任何的重復(fù)。如果籃球隊(duì)員的排列方式是170,180,185,170,180,185... 有可能每次挑出來的籃球隊(duì)員都是身高180哦。
抽樣偏差 Sampling Bias
有好的抽樣方法,就肯定存在有問題的方法,也就是抽樣調(diào)查中出現(xiàn)的各種Bias。?比如從一開始就出現(xiàn)覆蓋不全的偏差(undercoverage bias)。顧名思義,undercoverage指的是抽取樣本時(shí),并沒有在應(yīng)該的總體中抽取,而是漏掉了從一部分中的一個(gè)更小的總體中抽取。
比如電話抽樣問題:當(dāng)政府領(lǐng)導(dǎo)想要調(diào)查市民對(duì)于新政策的意向時(shí),從電話本上隨機(jī)抽取一些人的電話詢問他們的意見。這看起來流程沒什么問題,實(shí)際上從最開始的電話本就錯(cuò)了。電話本很難保證覆蓋所有市民的電話,那電話沒登記在電話本上該怎么辦呢?這些人的意見就直接被放棄了嗎?因此除非題目表示電話本上有所有人的電話,否則只要一提電話抽樣,那肯定出現(xiàn)了undercoverage bias。
電話調(diào)查不僅有覆蓋不全的偏差,同時(shí)也很容易出現(xiàn)其它兩種偏差:不回答偏差(Nonresponsebias)和回答偏差(Response bias)。?不回答偏差(Nonresponse bias)是打了電話但對(duì)方?jīng)]接,或者打通了可對(duì)方拒絕回答。只要沒得到想要的答案,都算是nonresponse bias。?與之相反的回答偏差(Response bias)指的是得到了關(guān)于問題的回答,可是對(duì)方回答的并不是心里想的,或者并不是真實(shí)情況。比如打電話問道“你是否偷過東西”,一些真正偷過東西的人可能就會(huì)因?yàn)槊孀诱f沒有。?這兩個(gè)問題并不只會(huì)在打電話時(shí)存在,如果面對(duì)面問一些敏感問題,可能更容易出現(xiàn)。不過好在兩個(gè)都有相應(yīng)的解決辦法。比如通過隨機(jī)抽取更多的人,彌補(bǔ)上不接電話或者不回答人數(shù)的缺口,又比如通過匿名等保護(hù)信息的方式,讓實(shí)驗(yàn)對(duì)象不受面子的影響,從而愿意說真話。
實(shí)驗(yàn) vs 觀察研究?
Experiment vs. Observational study
當(dāng)抽樣完成之后,被實(shí)驗(yàn)的對(duì)象也就都足夠了。那如何通過一系列的操作,從實(shí)驗(yàn)對(duì)象中得到需要的數(shù)據(jù),則是我們后面研究的部分。?在日常生活中簡(jiǎn)單又常見的方式,問卷調(diào)查(Survey),它其實(shí)并不能被稱為一個(gè)實(shí)驗(yàn),因?yàn)樗荒鼙唤凶鲆环N觀察研究(Observational study)。這類觀察研究的特點(diǎn),就是不對(duì)實(shí)驗(yàn)對(duì)象做出任何的改變。
比如:想要研究文化水平與收入之間的關(guān)系,通過問卷調(diào)查100人的文化水平與收入,得出結(jié)論。此時(shí)研究對(duì)象并沒有被動(dòng)的文化水平低或者高,也沒有被動(dòng)地掙得更多或者更少。
研究人員發(fā)了問卷,只起到了觀察的作用,并沒有進(jìn)行實(shí)質(zhì)性的改變,這種就是觀察研究。 那什么才是一個(gè)真正的實(shí)驗(yàn)(Experiment)呢?答案有改變的實(shí)驗(yàn)叫做真正的實(shí)驗(yàn)。
舉個(gè)例子:想要研究司機(jī)聽不同音量的音樂和反應(yīng)速度的關(guān)系,可以通過讓同一個(gè)司機(jī)聽兩次不同大小音量的音樂,再測(cè)試反應(yīng)速度進(jìn)行對(duì)比。這時(shí)讓司機(jī)聽音樂的操作就是對(duì)他們進(jìn)行的改變,也就是treatment。
是否有改變,直接影響了研究的類型,更重要的是影響了結(jié)果。觀察研究因?yàn)闊o法確認(rèn)誰導(dǎo)致誰,因此只能得出正相關(guān)與負(fù)相關(guān)。
如果研究結(jié)果是文化水平和收入呈正相關(guān),也無法判定是因?yàn)槲幕礁邔?dǎo)致收入高,還是收入高所以有更好的教育資源,所以文化水平高。但是因?yàn)閷?shí)驗(yàn)是進(jìn)行了改變的,所以可以得到我們更希望的因果關(guān)系結(jié)論。
實(shí)驗(yàn) Experiment
在AP統(tǒng)計(jì)考試中,研究比較多的是實(shí)驗(yàn),因此就涉及到了實(shí)驗(yàn)的方法。?我們最簡(jiǎn)單常見的方法就是完全隨機(jī)設(shè)計(jì)(Completely randomized design),將每一個(gè)實(shí)驗(yàn)對(duì)象都隨機(jī)分配至實(shí)驗(yàn)組或?qū)φ战M,最后把兩組的數(shù)據(jù)進(jìn)行對(duì)比。通常實(shí)驗(yàn)組是對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行改變,而對(duì)照組則是不進(jìn)行改變。但有時(shí)因?yàn)閷?shí)驗(yàn)比較復(fù)雜,實(shí)驗(yàn)組會(huì)有好幾個(gè),那么就要把實(shí)驗(yàn)對(duì)象隨機(jī)分配到幾個(gè)組中的一個(gè),再進(jìn)行對(duì)比。
稍微復(fù)雜一點(diǎn)的實(shí)驗(yàn)方法叫做隨機(jī)區(qū)組設(shè)計(jì)(Randomized block design)。先根據(jù)某個(gè)標(biāo)準(zhǔn)把樣本分為兩組,再把每組的人分別隨機(jī)分到實(shí)驗(yàn)組和對(duì)照組。
比如:研究人在不同商場(chǎng)中的消費(fèi)金額,可以先把整體樣本分為男女兩組,再把每個(gè)男的隨機(jī)分到兩個(gè)不同的商場(chǎng),女的也隨機(jī)分到兩個(gè)不同商場(chǎng)。這樣不僅得到了兩個(gè)商場(chǎng)的不同消費(fèi)數(shù)據(jù),還能將男女?dāng)?shù)據(jù)進(jìn)行對(duì)比。
最后一個(gè),也是最復(fù)雜的——配對(duì)實(shí)驗(yàn)(Matched-pairs design)。最簡(jiǎn)單的解釋是,實(shí)驗(yàn)組與對(duì)照組的數(shù)據(jù)可以因?yàn)閷?shí)驗(yàn)對(duì)象的原因一一對(duì)應(yīng)起來。 其中一種情況,是讓實(shí)驗(yàn)對(duì)象每個(gè)人做兩件事。就比如之前講到的讓司機(jī)聽兩個(gè)不同音量的音樂,測(cè)反應(yīng)速度。或者測(cè)學(xué)生入學(xué)前成績(jī)和入學(xué)后成績(jī),得出上課有沒有用的結(jié)論。這種一人做兩件事的實(shí)驗(yàn),是因一個(gè)人給出的兩個(gè)數(shù)據(jù)一定是有聯(lián)系的,但又不能把A的第一個(gè)數(shù)據(jù)和B的第二個(gè)數(shù)據(jù)聯(lián)系起來,所以數(shù)據(jù)必須一一對(duì)應(yīng)。 還有另一種情況,雖然不是同一個(gè)人做的,但是實(shí)驗(yàn)對(duì)象還是兩兩一對(duì),得出的數(shù)據(jù)也是兩兩一對(duì)不能拆開,而且是matched-pairs的情況。比如研究情侶的消費(fèi)水平,雙胞胎誰會(huì)更高等等。他們往往有個(gè)不可分割的關(guān)系,也使得他們的數(shù)據(jù)牢牢綁定在一起。
寫在最后
抽樣檢測(cè)不僅是統(tǒng)計(jì)中非常重要的一部分,在其它AP科目中往往也占據(jù)一席之地。因?yàn)榻y(tǒng)計(jì)本身就是多個(gè)學(xué)科的基礎(chǔ),連題目都涵蓋了各個(gè)領(lǐng)域。AP統(tǒng)計(jì)作為一門基礎(chǔ)學(xué)科,其難度在AP中并不能排上一二,若你感到難以應(yīng)付,那你可能暫時(shí)還沒有找到攻破它的套路。
免費(fèi)領(lǐng)取AP統(tǒng)計(jì)學(xué)資料
暑期即將來臨,提前占位國(guó)際課程輔導(dǎo)


? 2025. All Rights Reserved. 滬ICP備2023009024號(hào)-1