ap統(tǒng)計(jì)學(xué)難嗎，ap統(tǒng)計(jì)學(xué)怎么學(xué)？

Category: AP課程, 國(guó)際課程 Date: 2023年4月21日下午2:55

ap統(tǒng)計(jì)學(xué)難嗎？根據(jù)數(shù)據(jù)顯示，2020年網(wǎng)考時(shí)，AP統(tǒng)計(jì)考生人數(shù)高達(dá)18萬。在AP理科中，統(tǒng)計(jì)考試占比僅次于微積分AB和生物。但是，對(duì)于AP統(tǒng)計(jì)的難度評(píng)價(jià)卻不一。有些考生認(rèn)為統(tǒng)計(jì)比微積分還難，學(xué)了半天也無法理解；而有些考生則認(rèn)為統(tǒng)計(jì)是AP中最簡(jiǎn)單的一科，學(xué)一學(xué)就能拿到4分，稍微努力一下就能得到5分。

實(shí)際上，AP統(tǒng)計(jì)的難度與眾不同。雖然在統(tǒng)計(jì)中幾乎沒有復(fù)雜的計(jì)算，但是其中的概念卻相當(dāng)復(fù)雜，需要逐級(jí)理解。重點(diǎn)并不在于數(shù)學(xué)解題的邏輯思維，而是如何將這些概念應(yīng)用到實(shí)際問題中。因此，學(xué)生們需要花時(shí)間去理解和掌握統(tǒng)計(jì)中的各種概念，才能在考試中取得好成績(jī)。

抽樣 Sampling

我們常說的抽樣檢測(cè)就是AP統(tǒng)計(jì)的范圍，一個(gè)抽樣（Sampling），一個(gè)實(shí)驗(yàn)（Experiment），最后進(jìn)行假設(shè)檢驗(yàn)（Hypothesis test），這就成功完成了一個(gè)研究。這類的基礎(chǔ)知識(shí)，是無論進(jìn)行哪一個(gè)理科科目地學(xué)習(xí)都必須要具備的。所以超級(jí)重要，好好學(xué)！

簡(jiǎn)單來說，抽樣（Sampling）就是從總體（population）中提出樣本（sample）的過程。目的就是為了省事，不用對(duì)（量大的）總體進(jìn)行一個(gè)個(gè)檢測(cè)，而是通過測(cè)其中一些有代表性的樣本數(shù)據(jù)再反推總體的數(shù)據(jù)。而最簡(jiǎn)單的也是我們常說的抽樣方式，就是簡(jiǎn)單隨機(jī)抽樣（Simple Random Sampling），從總體中隨機(jī)抽取樣本。那么如何做到隨機(jī)，這時(shí)統(tǒng)計(jì)就派上用場(chǎng)了。1. 把總體中每個(gè)個(gè)體的數(shù)字作為標(biāo)簽2. 通過計(jì)算器，隨機(jī)產(chǎn)生幾個(gè)數(shù)字3. 這些選出的數(shù)字所對(duì)應(yīng)的個(gè)體，就組成了我們所需要的樣本。

其實(shí)，就是以數(shù)字的方式代替所有的人或物，再通過數(shù)學(xué)的方法進(jìn)行隨機(jī)抽取。

除了最直接的簡(jiǎn)單隨機(jī)抽樣，還有幾種適合不同場(chǎng)景的抽樣調(diào)查方法。比如考試經(jīng)常出現(xiàn)的分層隨機(jī)抽樣（Stratifiedrandom sampling）和整群隨機(jī)抽樣（Cluster random sampling）。

分層隨機(jī)抽樣（Stratifiedrandom sampling）是先將總體按照一個(gè)標(biāo)準(zhǔn)分層，每層中抽取固定個(gè)數(shù)的個(gè)體，組成樣本。這種方式的適用場(chǎng)景是在總體分層后，每層的差距比較大，不過層內(nèi)部的個(gè)體差異不大。

比如：當(dāng)校長(zhǎng)想要知道這個(gè)高中里學(xué)生對(duì)學(xué)校的滿意度，可以根據(jù)年級(jí)把所有學(xué)生分三層，每個(gè)年級(jí)是一層。再從每個(gè)年級(jí)的學(xué)生中都挑20個(gè)，最后一共有60人被抽出，也就是樣本。這種時(shí)候同一年級(jí)，也就是同一層的學(xué)生差距并不大，學(xué)的知識(shí)都差不多。但是高一和高三的學(xué)生比，就相差比較多。

這是我們所說的適用于分層隨機(jī)抽樣的情況。

整群隨機(jī)抽樣（clusterrandom sampling）則是和分層隨機(jī)抽樣完全相反的另一種方法。是在總體分組后，隨機(jī)抽取其中一或多個(gè)組的所有個(gè)體成為樣本。這種方式適用于組和組之間差距不大，但是組內(nèi)多樣性高的情況。

比如：想要知道高三年級(jí)的同學(xué)在數(shù)學(xué)課堂上的表現(xiàn)，可以先根據(jù)班，把所有學(xué)生分成不同組，一個(gè)班為一組。直接抽取其中兩個(gè)班，各做一次公開課就能得到結(jié)果。這時(shí)班和班的差距其實(shí)并不大（沒有實(shí)驗(yàn)班），但是班級(jí)內(nèi)部有很喜歡聽課的同學(xué)，也有很不喜歡上課的同學(xué)，這會(huì)導(dǎo)致差異性比較大。
和分層隨機(jī)抽樣相比，整群隨機(jī)抽樣的操作難度一下子降低了，不用到處跑來跑去拜訪所有層，但是大多時(shí)候很難像分層隨機(jī)抽樣，保證樣本足夠多樣性。

選擇合適的抽樣方式，并且能通順不出錯(cuò)地寫出來可是超級(jí)超級(jí)超級(jí)重要的！

比如，某年真題考到量森林中樹的維度：一共上百畝的森林，可以選擇整群抽樣，只隨機(jī)測(cè)幾畝森林里所有樹的維度，這樣肯定方便。但更好的方式則是在每一畝都挑幾棵樹來測(cè)維度，雖然麻煩，但是因?yàn)槊恳划€地的陽光，土壤資源都不一樣，這樣的方式保證了樣本和總體更加匹配。

最后還有一種隨機(jī)抽樣的方法，叫做等距抽樣（Systematic random sampling）。第一步不再是分組，而是要把總體中的所有個(gè)體按某種順序排列，抽取每次的第k個(gè)作為樣本。這種與眾不同的方法在考試中并沒有前面三種考的頻繁，但也是重點(diǎn)之一。

舉個(gè)例子：籃球隊(duì)選參賽人，先按照高矮個(gè)把所有人排好順序，從中抽取第三個(gè)，第六個(gè)，第九個(gè)，第十二個(gè)......作為樣本（其實(shí)就是每次的第三個(gè)）。這種方法固然可以保證樣本與總體的相似性，但也要注意避免讓排列好的總體有任何的重復(fù)。如果籃球隊(duì)員的排列方式是170，180，185，170，180，185... 有可能每次挑出來的籃球隊(duì)員都是身高180哦。

抽樣偏差 Sampling Bias

有好的抽樣方法，就肯定存在有問題的方法，也就是抽樣調(diào)查中出現(xiàn)的各種Bias。?比如從一開始就出現(xiàn)覆蓋不全的偏差（undercoverage bias）。顧名思義，undercoverage指的是抽取樣本時(shí)，并沒有在應(yīng)該的總體中抽取，而是漏掉了從一部分中的一個(gè)更小的總體中抽取。

比如電話抽樣問題：當(dāng)政府領(lǐng)導(dǎo)想要調(diào)查市民對(duì)于新政策的意向時(shí)，從電話本上隨機(jī)抽取一些人的電話詢問他們的意見。這看起來流程沒什么問題，實(shí)際上從最開始的電話本就錯(cuò)了。電話本很難保證覆蓋所有市民的電話，那電話沒登記在電話本上該怎么辦呢？這些人的意見就直接被放棄了嗎？因此除非題目表示電話本上有所有人的電話，否則只要一提電話抽樣，那肯定出現(xiàn)了undercoverage bias。

電話調(diào)查不僅有覆蓋不全的偏差，同時(shí)也很容易出現(xiàn)其它兩種偏差：不回答偏差（Nonresponsebias）和回答偏差（Response bias）。?不回答偏差（Nonresponse bias）是打了電話但對(duì)方?jīng)]接，或者打通了可對(duì)方拒絕回答。只要沒得到想要的答案，都算是nonresponse bias。?與之相反的回答偏差（Response bias）指的是得到了關(guān)于問題的回答，可是對(duì)方回答的并不是心里想的，或者并不是真實(shí)情況。比如打電話問道“你是否偷過東西”，一些真正偷過東西的人可能就會(huì)因?yàn)槊孀诱f沒有。?這兩個(gè)問題并不只會(huì)在打電話時(shí)存在，如果面對(duì)面問一些敏感問題，可能更容易出現(xiàn)。不過好在兩個(gè)都有相應(yīng)的解決辦法。比如通過隨機(jī)抽取更多的人，彌補(bǔ)上不接電話或者不回答人數(shù)的缺口，又比如通過匿名等保護(hù)信息的方式，讓實(shí)驗(yàn)對(duì)象不受面子的影響，從而愿意說真話。

實(shí)驗(yàn) vs 觀察研究?

Experiment vs. Observational study

當(dāng)抽樣完成之后，被實(shí)驗(yàn)的對(duì)象也就都足夠了。那如何通過一系列的操作，從實(shí)驗(yàn)對(duì)象中得到需要的數(shù)據(jù)，則是我們后面研究的部分。?在日常生活中簡(jiǎn)單又常見的方式，問卷調(diào)查（Survey），它其實(shí)并不能被稱為一個(gè)實(shí)驗(yàn)，因?yàn)樗荒鼙唤凶鲆环N觀察研究（Observational study）。這類觀察研究的特點(diǎn)，就是不對(duì)實(shí)驗(yàn)對(duì)象做出任何的改變。

比如：想要研究文化水平與收入之間的關(guān)系，通過問卷調(diào)查100人的文化水平與收入，得出結(jié)論。此時(shí)研究對(duì)象并沒有被動(dòng)的文化水平低或者高，也沒有被動(dòng)地掙得更多或者更少。

研究人員發(fā)了問卷，只起到了觀察的作用，并沒有進(jìn)行實(shí)質(zhì)性的改變，這種就是觀察研究。那什么才是一個(gè)真正的實(shí)驗(yàn)（Experiment）呢？答案有改變的實(shí)驗(yàn)叫做真正的實(shí)驗(yàn)。

舉個(gè)例子：想要研究司機(jī)聽不同音量的音樂和反應(yīng)速度的關(guān)系，可以通過讓同一個(gè)司機(jī)聽兩次不同大小音量的音樂，再測(cè)試反應(yīng)速度進(jìn)行對(duì)比。這時(shí)讓司機(jī)聽音樂的操作就是對(duì)他們進(jìn)行的改變，也就是treatment。

是否有改變，直接影響了研究的類型，更重要的是影響了結(jié)果。觀察研究因?yàn)闊o法確認(rèn)誰導(dǎo)致誰，因此只能得出正相關(guān)與負(fù)相關(guān)。

如果研究結(jié)果是文化水平和收入呈正相關(guān)，也無法判定是因?yàn)槲幕礁邔?dǎo)致收入高，還是收入高所以有更好的教育資源，所以文化水平高。但是因?yàn)閷?shí)驗(yàn)是進(jìn)行了改變的，所以可以得到我們更希望的因果關(guān)系結(jié)論。

實(shí)驗(yàn) Experiment

在AP統(tǒng)計(jì)考試中，研究比較多的是實(shí)驗(yàn)，因此就涉及到了實(shí)驗(yàn)的方法。?我們最簡(jiǎn)單常見的方法就是完全隨機(jī)設(shè)計(jì)（Completely randomized design），將每一個(gè)實(shí)驗(yàn)對(duì)象都隨機(jī)分配至實(shí)驗(yàn)組或?qū)φ战M，最后把兩組的數(shù)據(jù)進(jìn)行對(duì)比。通常實(shí)驗(yàn)組是對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行改變，而對(duì)照組則是不進(jìn)行改變。但有時(shí)因?yàn)閷?shí)驗(yàn)比較復(fù)雜，實(shí)驗(yàn)組會(huì)有好幾個(gè)，那么就要把實(shí)驗(yàn)對(duì)象隨機(jī)分配到幾個(gè)組中的一個(gè)，再進(jìn)行對(duì)比。

稍微復(fù)雜一點(diǎn)的實(shí)驗(yàn)方法叫做隨機(jī)區(qū)組設(shè)計(jì)（Randomized block design）。先根據(jù)某個(gè)標(biāo)準(zhǔn)把樣本分為兩組，再把每組的人分別隨機(jī)分到實(shí)驗(yàn)組和對(duì)照組。

比如：研究人在不同商場(chǎng)中的消費(fèi)金額，可以先把整體樣本分為男女兩組，再把每個(gè)男的隨機(jī)分到兩個(gè)不同的商場(chǎng)，女的也隨機(jī)分到兩個(gè)不同商場(chǎng)。這樣不僅得到了兩個(gè)商場(chǎng)的不同消費(fèi)數(shù)據(jù)，還能將男女?dāng)?shù)據(jù)進(jìn)行對(duì)比。

最后一個(gè)，也是最復(fù)雜的——配對(duì)實(shí)驗(yàn)（Matched-pairs design）。最簡(jiǎn)單的解釋是，實(shí)驗(yàn)組與對(duì)照組的數(shù)據(jù)可以因?yàn)閷?shí)驗(yàn)對(duì)象的原因一一對(duì)應(yīng)起來。其中一種情況，是讓實(shí)驗(yàn)對(duì)象每個(gè)人做兩件事。就比如之前講到的讓司機(jī)聽兩個(gè)不同音量的音樂，測(cè)反應(yīng)速度。或者測(cè)學(xué)生入學(xué)前成績(jī)和入學(xué)后成績(jī)，得出上課有沒有用的結(jié)論。這種一人做兩件事的實(shí)驗(yàn)，是因一個(gè)人給出的兩個(gè)數(shù)據(jù)一定是有聯(lián)系的，但又不能把A的第一個(gè)數(shù)據(jù)和B的第二個(gè)數(shù)據(jù)聯(lián)系起來，所以數(shù)據(jù)必須一一對(duì)應(yīng)。還有另一種情況，雖然不是同一個(gè)人做的，但是實(shí)驗(yàn)對(duì)象還是兩兩一對(duì)，得出的數(shù)據(jù)也是兩兩一對(duì)不能拆開，而且是matched-pairs的情況。比如研究情侶的消費(fèi)水平，雙胞胎誰會(huì)更高等等。他們往往有個(gè)不可分割的關(guān)系，也使得他們的數(shù)據(jù)牢牢綁定在一起。

寫在最后

抽樣檢測(cè)不僅是統(tǒng)計(jì)中非常重要的一部分，在其它AP科目中往往也占據(jù)一席之地。因?yàn)榻y(tǒng)計(jì)本身就是多個(gè)學(xué)科的基礎(chǔ)，連題目都涵蓋了各個(gè)領(lǐng)域。AP統(tǒng)計(jì)作為一門基礎(chǔ)學(xué)科，其難度在AP中并不能排上一二，若你感到難以應(yīng)付，那你可能暫時(shí)還沒有找到攻破它的套路。

免費(fèi)領(lǐng)取AP統(tǒng)計(jì)學(xué)資料

暑期即將來臨，提前占位國(guó)際課程輔導(dǎo)