快要考試了,腦子里對(duì)統(tǒng)計(jì)各種概念還是一團(tuán)漿糊?問(wèn)答題完全不知道在問(wèn)什么,也不知道怎么回答?
廢話不多說(shuō),潘老師給大家梳理AP考試常見(jiàn)題型和解題思路,干貨直接奉上!大腿趕緊抱起來(lái),拒當(dāng)炮灰!
近年來(lái)統(tǒng)計(jì)的題目考察知識(shí)點(diǎn)越來(lái)越細(xì),對(duì)學(xué)生統(tǒng)計(jì)概念的考察難度也越來(lái)越大。因此要想拿到5分,對(duì)統(tǒng)計(jì)知識(shí)的理解絕對(duì)是要透徹、深刻。下面我們就來(lái)盤點(diǎn)選擇題題型與常見(jiàn)的坑:
回顧歷年題目,選擇題常見(jiàn)的題型主要分為:
我們每個(gè)題型都進(jìn)行分析,總結(jié)這類特點(diǎn)以及對(duì)應(yīng)的思路策略
圖表判斷題給出的圖表多為histogram, boxplot,scatter plot。不少同學(xué)可能忽略了另外一個(gè)圖,叫cumulative frequency plot(累計(jì)頻率圖)。這個(gè)可能出現(xiàn)的考點(diǎn)是通過(guò)圖來(lái)判斷數(shù)據(jù)是skewed to left or right。例如,


這類型的考點(diǎn)還會(huì)結(jié)合BOXPLOT,讓你根據(jù)Q1,median以及Q3的位置判斷數(shù)據(jù)的shape.

我們看這里,當(dāng)skewed to the left,Q1與median的距離比median到Q3的距離近,說(shuō)明數(shù)據(jù)集中在前面。

另外,題目可能會(huì)給boxplot Q1到median與median到Q3之間距離相等,讓我們判斷數(shù)據(jù)的shape。這種情況極有可能是bell-shape,也有可能會(huì)是uniform,所以大家要小心。
總體來(lái)說(shuō),這類題型相對(duì)比較簡(jiǎn)單,只要平時(shí)做好積累,仔細(xì)判斷問(wèn)題就不會(huì)太大。
考到數(shù)據(jù)收集和實(shí)驗(yàn)的題目,無(wú)外乎兩點(diǎn): 是不是足夠random,是不是足夠representative,可能存在的bias是什么。另外這類型題目考得最多的是區(qū)分observation study and experiment。大家只要注意出現(xiàn)assign,arrangement等干涉性的字眼,或者提到研究有人為分配東西給實(shí)驗(yàn)對(duì)象,這種就是experiment跑不了了。
數(shù)據(jù)分析部分的題目大部分會(huì)圍繞regression進(jìn)行考察。
這里,大家需要注意以下幾個(gè)細(xì)節(jié):
correlation coefficient的計(jì)算方式是x與y變量的z-score計(jì)算的,

所以當(dāng)x或y變量的單位改變時(shí),他們的z-score不變,同時(shí)他們的r也是不會(huì)改變的。
我們看看這個(gè)例題:
Consider the following three scatterplots:

Which has the greatest correlation coefficient?
A.????Ⅰ
B.????Ⅱ
C.????Ⅲ
D.????They all have the same correlation coefficient
E.????This question cannot be answered without additional information
例如這道題,大家注意看里面數(shù)據(jù)的點(diǎn)與scale的變化關(guān)系。這里相當(dāng)于他們的測(cè)量單位變化了,但是他們的z-score還是恒定的,因此r算出來(lái)也是不變的。
第二個(gè)細(xì)節(jié)是
(coefficient of determination,也就是correlation coefficient r的平方)。這個(gè)大家都知道是proportionof variation of y explained by the regression model。但是這個(gè)proportion是什么呢?
我們知道,在regression model中,, 因此,我們有

(因?yàn)榕cresidual independent)。所以大家可以理解為


如果某道題給你var(residual),也就是大家常見(jiàn)的regression output table里面的 s,同時(shí)再給你var(y),問(wèn)你如何計(jì)算
。你只需要計(jì)算
,?即可算出![]()
第四部分的概率計(jì)算難點(diǎn)在于reversecondition probability,也就是公式的應(yīng)用。


這道題就是典型的reverse conditionprobability題目。假設(shè)警報(bào)會(huì)響是T,不響是NT,有違禁品是C,沒(méi)有違禁品是NC,那么題目要算的是P(C|T),給的條件是P(T|C)=97%, P(T|NC)=15%,P(C)=1/1000。根據(jù)公式,

我們發(fā)現(xiàn)題目并沒(méi)有P(T),怎么辦?這也是所有這類題型的難點(diǎn)所在,常常是公式的分母需要在題目中挖掘和計(jì)算出來(lái)。
大家可以思考一下,警報(bào)會(huì)響,有可能是有違禁品,也有可能是沒(méi)有違禁品。在這1000個(gè)包裹里,1個(gè)是含違禁品的,那么這1個(gè)包裹會(huì)響的個(gè)數(shù)就是1*P(T|C),而999個(gè)是沒(méi)有的,那么他會(huì)響的個(gè)數(shù)就是999*P(T|NC),因此,會(huì)響的個(gè)數(shù)總共就是1*P(T|C)+999*P(T|NC)=150.82,
,代進(jìn)剛才的公式即可算出結(jié)果。
對(duì)于置信區(qū)間,絕大部分的題目都是需要同學(xué)們進(jìn)行計(jì)算,另外有些比較常見(jiàn)的題目會(huì)讓大家計(jì)算至少需要多少樣本數(shù)量才能讓95%的margin of error 小于某個(gè)值。大家只要心中記好計(jì)算公式,帶進(jìn)去就可以了。

另外一種常見(jiàn)的考法是考察大家對(duì)不同的置信區(qū)間的用法以及對(duì)應(yīng)的條件是什么。

總結(jié)起來(lái)就是,只要是proportion,那么一定用z-interval,如果是mean, 那么只要population standard deviation不知道就用t-interval。
千萬(wàn)把里面的公式與應(yīng)用條件背熟!背熟!背熟!所有的選擇題難點(diǎn)就是考察大家對(duì)公式的熟練程度。
另外還有關(guān)于regression的slope and intercept置信區(qū)間計(jì)算。

斜率的置信區(qū)間就是
, 上面這個(gè)例子我們可以直接進(jìn)行計(jì)算:
。這里的t取對(duì)應(yīng)的confiden celevel和degree of freedom=n-2即可。
同理,intercept的置信區(qū)間為:
最后的hypothesis test與置信區(qū)間類似,要求大家計(jì)算test-statistics,所以關(guān)鍵的公式還是得背!得背!得背!對(duì)于不同的情況用什么test,與置信區(qū)間一樣,只要是proportion,那么一定用z-test,如果是mean, 那么只要populationstandard deviation不知道就用t-test。




最后就是p-value的理解。P-value指的是,如果你的null hypothesis test是對(duì)的話,那么你做出來(lái)的sample mean(or proportion) 作為極端情況出現(xiàn)的概率。也就是說(shuō),如果我們假設(shè)中國(guó)人平均身高是170cm,你去做一個(gè)100人的抽樣調(diào)查后,得到的平均身高是168cm。P-value指的就是如果咱們中國(guó)人平均身高真的就是170cm,你做出來(lái)這個(gè)168cm的樣本,作為極端情況出現(xiàn)的概率時(shí)多少。假設(shè)是0.003,說(shuō)明如果我們中國(guó)人平均身高真的是170cm的話,你能做出這個(gè)樣本的概率只有0.003,那么說(shuō)明中國(guó)人平均身高就非常不可能是170cm了。
好了,以上就是潘老師給大家?guī)?lái)的一點(diǎn)小分享。希望對(duì)大家有幫助,祝大家考出好成績(jī)!
咨詢或AP報(bào)名請(qǐng)?zhí)砑宇檰?wèn)微信


? 2025. All Rights Reserved. 滬ICP備2023009024號(hào)-1