最近英國一個題目非常有爭議性的教育研究引發(fā)極大關(guān)注,其中指出將近40%的成績是“錯誤”的。
那么這個研究里到底說了什么?觀點(diǎn)是否正確呢?
這里有你想知道的!
這項研究是什么?上月,英國考試監(jiān)管機(jī)構(gòu)Ofqual公布了一份關(guān)于評分一致性的衡量標(biāo)準(zhǔn)(marking consistency metrics)。這個研究試圖通過使用“種子”問題的數(shù)據(jù)來評估GCSE、AS、A-level的評分一致性。
所以seed question到底是個啥?“Seeding”是各大考試局采用的一種用來監(jiān)控與保證閱卷老師評分質(zhì)量的方法。在大規(guī)模判分之前,考試局會從真實的學(xué)生考卷中選擇一些答案。一般是一位或多位高級閱卷老師,制定出一份“權(quán)威”評分標(biāo)準(zhǔn),也就是被視作最合適的分?jǐn)?shù),我們暫且成為“標(biāo)準(zhǔn)分”。然后普通閱卷老師要接受評分“標(biāo)準(zhǔn)度”測評,也就是在電腦上會隨機(jī)出現(xiàn)一些上面的問題來進(jìn)行打分。如果閱卷老師給出的分?jǐn)?shù)與“標(biāo)準(zhǔn)分”差距太大(一定的范圍內(nèi)是可以接受的),那么閱卷老師也要接受額外的指導(dǎo),或者干脆被取消批卷資格。Ofqual的研究就是看普通閱卷老師給出的分?jǐn)?shù)跟“標(biāo)準(zhǔn)分”有什么不同,使用的數(shù)據(jù)是來自于2017考試季收集來的GCSE、AS與A-level考試。然后Ofqual就可以通過使用這些復(fù)雜數(shù)據(jù)來評估,考生獲得“準(zhǔn)確成績”的概率有多大。
那Ofqual發(fā)現(xiàn)了什么呢?根據(jù)Ofqual,“獲得標(biāo)準(zhǔn)分的概率中位數(shù)隨證書和科目的變化而變化”,概率計算的衡量標(biāo)準(zhǔn)1是100%,0.1是10%。不出意外,一些科目的“標(biāo)準(zhǔn)分”概率特別高,數(shù)學(xué)平均概率可以達(dá)到0.96。但是其他一些寫作類、答案比較長的問題無可避免主觀性因素更多,獲得“標(biāo)準(zhǔn)分”的概率就低一些,比如說英語語言與文學(xué)的概率只有0.52。這聽起來很讓人擔(dān)憂-可是這就意味著一半下發(fā)的英語成績都是錯的嗎?考試監(jiān)管機(jī)構(gòu)表示“標(biāo)準(zhǔn)分”應(yīng)該被當(dāng)做是研究的理論框架,而不是唯一的“正確”分?jǐn)?shù),不一樣的評分不應(yīng)該自動歸為“不正確”或是“錯誤”。對于一些科目和一些問題來說,可能只有標(biāo)準(zhǔn)分才是正確的,比如說數(shù)學(xué)就是非對即錯。但是其他一些科目和問題,只要是在一定的合理范圍內(nèi),不一樣的分?jǐn)?shù)也是合情合理的,所以一道滿分25分的社會學(xué)問題,標(biāo)準(zhǔn)分是18分,但閱卷老師給出的是19分或18分都是合理的。Ofqual強(qiáng)調(diào)的點(diǎn)在于,他們的分析并沒有區(qū)分不能接受的重大錯誤與合理范圍內(nèi)的不一致性。
所以老師們應(yīng)該擔(dān)心嗎?話雖這樣說,但很多人還是對數(shù)據(jù)傳達(dá)出的信息感到擔(dān)憂。批評家們認(rèn)為Ofqual自己提出這個質(zhì)疑,然后當(dāng)大眾對這一結(jié)果感到不舒服的時候,又自圓其說。校長會議表示人文科目的“極端”不可靠性帶來了“嚴(yán)重”的影響。好在Ofqual指出獲得“標(biāo)準(zhǔn)分”差異1分以內(nèi)成績的概率要高得多,占Ofqual調(diào)查問題的0.95以上。但在英國這樣“高風(fēng)險”的考試體制下,這對升學(xué)取決于GCSE成績是3還是4的學(xué)生來說,并沒多大安慰。我們需要記住,評分一致性是有雙向作用的,一些應(yīng)該拿到4分的學(xué)生卻錯過了4分,而一些本應(yīng)該拿3分的學(xué)生卻得到了4分。Ofqual介紹2013-2017年間的評分一致性是穩(wěn)定的,而且英格蘭跟其他國家的評分一致性并沒有相差甚遠(yuǎn)。
為什么不直接采用原始卷面分?取消等級分?jǐn)?shù)線直接采用原始分?jǐn)?shù)是解決這個問題的一種方式,但這樣的分?jǐn)?shù)不是很直觀,也不好進(jìn)行對比。而且就算是等級分?jǐn)?shù)線被廢除的話,學(xué)院、大學(xué)和雇主最終可能還是會設(shè)置自己的分?jǐn)?shù)線。
還有其他的辦法嗎?Ofqual表示在改善評分一致性上,考試局還是有進(jìn)步空間的。然而,不論閱卷老師接受多少培訓(xùn),或者評分標(biāo)準(zhǔn)寫得多么全面,我們永遠(yuǎn)無法在每一個分?jǐn)?shù)上達(dá)到完全一致。
最后,總結(jié)起來就是考試局的打分相對來說還是比較準(zhǔn)確的,這40%的數(shù)字是與“標(biāo)準(zhǔn)分”對比的差異,但卻屬于合理范圍內(nèi),所以大家也別操心了,努力提高自己的卷面分才是正經(jīng)事啊!

? 2026. All Rights Reserved. 滬ICP備2023009024號-1