概述
統計按照大綱共分為四部分,分別是描述統計、抽樣方法、概率論、統計推斷。
(1) Exploring Data:?Describing patterns anddepartures from patterns
(2) Sampling and Experimentation:?Planningand conducting a study
(3) Anticipating Patterns:?Exploring randomphenomena using probability and simulation
(4) Statistical Inference:?Estimatingpopulation parameters and testing hypotheses
1描述統計
數據(data)分為定性數據(qualitative or categorical?data)與定量數據(quantitativedate)。定性數據:按照類別進行劃分,展示對象的屬性;定量數據:展示對象的數值特征。
圖(graph):分為bar chart, pie chart, dotplot, stemplot, histogram, boxplot
| Quality | Quantity | |
| Bar chart | YES | NO |
| Pie chart | YES | NO |
| Stemplot | NO | YES |
| Dotplot | YES | YES |
| Histogram | NO | YES |
| Boxplot | NO | YES |
通過圖形可以看出數據的分布特征
(1)對稱(symmetric)
(2)偏態(skewed)左偏(skewed to the left)右偏(skewed to the right)
(3)集中趨勢
(4)異常值

histogram的畫法
(1)以個數作為高度(2)以百分比作為高度(3)以百分比作為面積。
概率密度(probability density function, pdf)
描繪以百分比作為面積的histogram的曲線。
累積分布(cumulative distribution function, cdf)
以小于等于該數的數據所占百分比作為該數的縱坐標繪制出的曲線。
數字特征(numerical value)
(1)描述集中趨勢(2)描述離散趨勢(3)描述位置(4)標準化變量(z-score)
| Center | Mode | Mean | Median | |
| Spread | Range | Interquartile range | Variance | Standard deviation |
| Position | Simple ranking | Percentile ranking | ||
| Z-score |
眾數(mode)
一組數據中出現次數最多的數。
平均數(mean)
數據求和后除以數據個數。
數據的排序方式(從小到大)有兩種
(1)簡單排序(simple ranking):第一、第二、第三等等(2)百分位排序(percentile ranking):
某個數的百分位值等于小于該數的數據個數占整體的百分比。
將一組數據排序后,可得到
a.最小值(minimum)、最大值(maximum)
b.極差(range):最大值與最小值的差,max-min
c.中位數(median):排序后處于中間位置的數
d.四分位數(quartile):
位于25%、75%的數,記為Q1、Q3
(1).四分位差(interquartile range, IQR):兩個四分位數的差值,IQR=Q3-Q1
(2).判斷某個數是否為異常值(outlier),可用Q1-1.5IQR和Q3+1.5IQR作為標準進行衡量,如果該數超出這個范圍則可認定為異常值。
(3)箱線圖(boxplot):
剔除異常值后取最小值、Q1、中位數、Q3、最大值這五個數,最小值最大值作為兩個端點,Q1、中位數、Q3作為三條線畫出的圖形。將異常值以散點的形式標注在最小值左側和最大值右側。
方差(variance)與標準差(standard deviation):衡量數據與平均值偏離程度平方和的平均值。

這里需要注意的是,如果計算的是總體的方差和標準差,用1/n來求平均;如果計算的是樣本的方差和標準差,用1/(n-1)來求平均。
標準化變量(z-score):計算方式是將原始數據減去平均數之后再除以標準差,用它可以展示不同度量單位數據的偏離程度。
![]()
二維數據二維定量數據研究兩個變量的關系
以一個變量作為橫坐標、另一個變量作為縱坐標繪制出的圖形,以散點的形式表現在坐標軸中。變量選用單位不同,會造成圖形有差異。
相關系數(linear correlation coefficient)
衡量兩個量之間線性關系的指標,介于-1和1之間,負數代表兩個變量之間是反向變化的,正數代表兩個變量之間是同向變化的,越靠近0代表線性關系越弱,越靠近-1和1代表線性關系越強。它只能衡量線性關系,不能衡量非線性關系;只反應關系,不代表因果。
回歸(regression)
尋找代表變量之間關系的數學表達式。
線性回歸
假定變量之間存在一次函數的關系(形如y=kx+b)。此函數在坐標系中圖像是一條直線,因此稱作線性回歸。
真實值與估計值之間的差。
殘差圖(residual plot)
以一個變量作為橫坐標、該變量所對應的殘差為縱坐標繪制出的圖形。若兩變量之間存在線性關系,則殘差圖應為無規則的散點。
最小二乘法(least square)
利用殘差平方和最小求出直線斜率與截距(k和b)的方法。
線性化(linearity)
將非線性關系轉換為線性關系的方法,常用有對數變換、指數變換等。
抽樣方法
總體(population):研究對象的全體。樣本(sample):
總體中的一部分。
參數(parameter):
描述總體特征的指標,一般用希臘字母表示。
統計量(statistics):
描述樣本特征的指標,一般用拉丁字母表示。
普查(census):
對總體中的每一個個體都進行研究。
抽樣(sample):
對總體中的部分個體進行研究。
實驗法(experiment):
對目標群體進行干預而得到數據。
觀察法(observation):
不對目標群體進行干預而得到數據。
實驗組(treatment group):
對該組中的個體進行干預。
對照組(control group):
不對該組中的個體進行干預。
影響因子(factor):
會對實驗對象產生影響
變量混淆(confounded):
無法分離因子的影響
協同作用(common response):
多個因子共同造成影響
安慰劑(the placebo effect):
心理作用導致的變化
單盲試驗(single blinding):
實驗者知曉每一個體是否受到預先設置的干預,而被實驗者不知曉。
雙盲試驗(double blinding):
實驗者與被實驗者都不知曉每一個體是否受到預先設置的干預。
簡單隨機抽樣(simple random sampling):
隨機地從總體中選取個體,每個個體被選到的概率是相等的。
系統抽樣(systematic sampling):
首先將總體中的個體編號、排序,而后按照固定步長進行抽樣。
分層抽樣(stratified sampling):
首先將總體中的個體按照某一特征或標準劃分為不同的層(strata),而后從每層中進行抽樣。特征是每個層中的個體具有相似性。
整群抽樣(cluster sampling):
首先將不同特征的個體劃為分一個群(cluster),而后從每個群中進行抽樣。特征是每個群具有多樣性。
概率
頻數(frequency):某一結果出現的次數。
頻率(relative frequency):
某一結果出現的次數占實驗次數的百分比。
概率(probability):
某一結果出現可能性的大小,介于0和1之間。不可能事件(impossible event)的概率是0,必然事件(certain event)的概率是1,但反之不正確,概率為0的事件不一定是不可能事件,也有可能發生,概率為1的事件也可能不發生。
大數定律(the law of large numbers):
實驗次數越大,頻率越穩定,且取決于事件本身的概率。
基本公式:

條件概率(conditional probability):
給定某一事件發生的條件下,另一事件發生的概率。
隨機變量(random variable):
該變量的取值取決于實驗的結果。
離散型(discrete):
隨機變量的取值是一個一個的。
連續型(continuous):隨機變量的取值是連續不間斷的。
分布(distribution):
實驗結果出現的規律。
均值(mean)與方差(variance):

二項分布(binomial distribution):
將具有兩個結果的實驗重復多次,求其中某一結果出現次數的概率。

幾何分布(geometric distribution):
將具有兩個結果的實驗重復多次,求其中某一結果首次出現時實驗次數的概率。

正態分布(normal distribution):
代表常規現象出現次數多、極端現象出現次數少這樣一種規律。
標準正態分布(standard normal distribution):
均值為0、方差為1的正態分布。
抽樣分布(sampling distribution):
多次抽樣后,樣本統計量的分布規律。
標準誤(standard error):
統計量的標準差。

單總體樣本比例的抽樣分布


統計推斷
參數估計(estimation):利用統計量去預測參數。區間估計(interval):
給出參數的范圍。
置信水平(confidence level):
對參數多次進行估計得到多個區間,其中區間中包含真實參數的次數占估計次數的比例。
單總體比例區間估計:

雙總體比例差區間估計:

單總體均值區間估計:
此時需考慮總體方差是否已知,(1)若已知則使用正態分布進行估計,(2)若未知則使用t分布進行估計。

雙總體均值差區間估計:
此時需考慮總體方差是否已知
(1)若已知則使用正態分布進行估計
(2)若未知
a.總體方差不等(pooled=no)
b.總體方差相等(pooled=yes),則使用t分布進行估計,但所用自由度與方差皆不相同。

假設檢驗(hypothesis test):
利用統計量對參數的真偽進行檢驗。
原假設(null hypothesis):
待檢驗參數。
備擇假設(alternative hypothesis):
當原假設被拒時所接受的假設。
根據備擇假設形式的不同,分為雙尾檢驗(two tailed)和單尾檢驗(one tailed)

p值(p-value):
當原假設為真的時候得到此樣本結果以及比此樣本結果更極端結果的概率。p值越小,拒絕原假設的可能性越大。
第一類錯誤(type I error):原假設為真時卻拒絕原假設。犯此錯誤的概率為顯著性水平(significance level)。
第二類錯誤(type II error):原假設為假時卻沒有拒絕原假設。不犯此類錯誤的概率成為檢驗的power(power of the test)。
在樣本容量(sample size)固定的條件下,兩類錯誤為此消彼長的關系,若想同時降低兩類錯誤,只能提升樣本容量。
單總體比例檢驗:

雙總體獨立樣本比例差檢驗:

單總體均值檢驗:
此時需考慮總體方差是否已知
(1)若已知則使用正態分布進行檢驗
(2)若未知則使用t分布進行檢驗。
雙總體均值差檢驗:
此時需考慮總體方差是否已知
(1)若已知則使用正態分布進行檢驗
(2)若未知
a.總體方差不等(pooled=no)
b.總體方差相等(pooled=yes),則使用t分布進行估計,但所用自由度與方差皆不相同。
卡方檢驗(Chi-square)
擬合優度檢驗(goodness of fit):利用樣本信息來檢驗總體是否符合某一分布。
獨立性檢驗(independence):檢驗某一分類結果是否受另一分類影響。
計算器命令列表


? 2025. All Rights Reserved. 滬ICP備2023009024號-1