(靈碧曰:考試賦什麼分?這是一個需要深思的問題。)
{詳見:GBT7714
章建石.一項公平與效率兼備的高考改革為什麼難以為繼?——標準分製度的變遷及其折射的治理困境[J].北京師範大學學報(社會科學版),2016,(1):31-41.
MLA
章建石.“一項公平與效率兼備的高考改革為什麼難以為繼?——標準分製度的變遷及其折射的治理困境.“北京師範大學學報(社會科學版)1(2016):31-41.
APA
章建石.(2016).一項公平與效率兼備的高考改革為什麼難以為繼?——標準分製度的變遷及其折射的治理困境.北京師範大學學報(社會科學版)(1),31-41.}
一項公平與效率兼備的高考改革為什麼難以為繼?
——標準分製度的變遷及其折射的治理困境
章建石
(教育部考試中心,北京)
[摘要]實施標準分製度是恢複高考後考試標準化改革的一項重大舉措,試點和推廣曆時二十餘年,涉及七個省份。與傳統的高考分數製度相比,標準分在分數評定的精確性、人才選拔的效率以及對形式公平的保障上均有明顯的優勢。然而,在多重的製度變遷邏輯中,標準分製度並不能滿足各主要利益相關者的訴求。社會對高考改革在科學與公平維度上的獨特要求,政府在應對上的民意依賴等,使得這一整體上功能更佳的製度難以為繼。高考改革既關係“民生”又涉及“國計”,雙重的改革任務對治理方式提出了更高的要求。
[關鍵詞]高考;標準分;製度變遷;社會公平
一、標準化:恢複高考後的一項重大改革
1977年恢複高考,舉國沸騰,製度的重建讓個體和社會看到了希望,但緊接而來的具體工作卻是困難重重。“文化大革命”期間,考試理論和技術、高考相關科目的學科研究幾乎完全停滯,考試的實踐經驗幾乎為零,這給高考考試工作的各個環節都帶來了前所未有的挑戰。對此,原國家教委考試中心①主任、參與恢複高考工作的楊學為先生有著深刻的體會。
題型基本上是科舉以來傳統的貼經(填空)、墨義(簡答)、策論(論述)等;命題沒有基本的質量指標,僅有抽象的要求(如難、中、易),靠少數人“入闈”突擊;評卷、分數統計完全靠手工操作;管理幾乎沒有必要的法規予以規範和遵循。當時的考試,時有科學性錯誤出現,試卷水平時高時低,試卷覆蓋麵窄,導致押題嚴重,死記硬背;評卷需要大量人員,評分誤差大。②
這些問題表麵上指向了高考的命題、閱卷、評分等技術環節,更深層次上指出了高考在扞衛“科學、公平”這一核心價值上的不足。客觀而言,高考恢複後前幾年的考試質量是可以打上問號的,這與特殊時代背景有關。幸運的是,這些問題及其帶來的後果,很快就被一些剛恢複研究工作的心理學學者所關注。20世紀80年代初期,北京師範大學一批有誌於推進考試科學化進程的學者,經過努力獲得了幾年的高考成績數據,並且進行了嚴謹、科學的分析,得出的結果用觸目驚心來形容一點也不為過。對此,一位當時領銜的專家回憶:
單看區分度,每年有150分左右的題目必須淘汰。更嚴重的是,大部分試題信度(可靠性)很低,效度(有效性)竟然出現了負值。……“有些文科卷子,隻四大道論述題平分天下……拿語文來說,同一張答卷,五個地區打分能差出32分來,數學也差15分。③
顯而易見,這些問題表明:高考這一把尺子出了不小的差錯。如此權威的量具,如果喪失了科學性,公平性也將蕩然無存。高考無小事,高考中存在的這些問題,很快得到了教育行政部門的回應。1985年1月,教育部在廣州市召開第二屆高考科研討論會,就高校招生體製改革、定向招生、推薦保送以及考試科學化等問題進行了討論。會後決定,廣東省率先進行高考標準化改革的試驗。試驗采取“由點到麵,逐步推進”的策略,即部分學科、省份先試,最後在全國推廣。這期間,進行了若幹重要的實踐探索:
1985年,首先,數學在廣東文、理科8萬考生中試驗,英語在廣東英語類3000名考生中試驗。
1986年,廣東除數學、英語外,增加了物理;英語擴展到廣東、山東文、理科;遼寧省文科,廣西英語類共20萬考生。
1987年,廣東除數學、英語、物理三科外,增加化學、語文;英語擴展到廣東、山東、遼寧、廣西、四川、湖北、陝西等7省區,約40萬考生參加;物理科擴展到廣東、山東,約20萬考生參加。
1988年,廣東繼續進行語文、數學、物理、化學、英語的試驗,英語擴展到17個省區,物理仍繼續在山東試驗。
1988年11月15—18日,由國家教委考試中心主持,國家教委教育科學研究規劃領導小組辦公室參加,並邀請全國幾十名教育、心理、教育測量、教育統計學專家及部分省級學校招生辦公室負責人、高等學校招辦負責人、中學負責人與會,召開了“廣東省普通高等學校招生標準化考試試驗評估會”。①
經過前期的試點和成效的評估,1989年6月27日,國家教委頒布了《普通高等學校招生全國統一考試標準化實驗規劃》,開始在全國正式實施標準化考試。
所謂標準化考試是指按照係統科學程序組織的,具有統一的標準,並對誤差做了嚴格控製的考試。它一般包括命題標準化、考試實施標準化、評分標準化和分數解釋標準化這四個環節②。基於這樣的認識,標準化考試改革一開始的定位就非常明確,即把考試作為一項係統工作,以標準化為抓手,以命題、考試實施、分數解釋等為切入點,來進行整體設計。各環節分別推出相應的改革措施,提升考試的科學化水平。具體的改革涉及三個方麵:一是命題。根據國情研究並建立了高考科目的考試目標,製定高考的考試大綱,高考的考試目的、性質、內容、範圍、題型等都做了詳細的規定。二是考試實施。針對新設計的選擇題題型,引入了光電閱讀器和電腦閱卷,大大提高了閱卷的準確性和效率。對於主觀題閱卷中出現的不同閱卷者評分之間的差異,也嚐試借助電腦來進行監控,減少了多種誤差,盡可能保證閱卷過程的公平。三是分數解釋。以高考的分數報告為突破口,嚐試將原始分轉換為標準分。
標準化改革是我國高考發展史上的一次標誌性事件,是恢複高考後的一次重大突破。從改革的緊迫性和必要性、改革目標的切適性以及對後續改革的影響來看,這次改革可以說也開啟了我國高考考試現代化的進程。然而,時至今日,當年標準化改革提出的三項任務,其現實境遇差別很大。命題和考試實施方麵的改革在原有基礎上不斷以累進的方式向前推進。具體而言,命題方麵:高考的考查目標不斷明晰,在學科層麵不斷細化。作為綱領性的文本,考試大綱幾乎每年都要進行修訂,1995年製定《高校入學全國統考命題工作章程》。考試實施方麵:現代信息化與網絡技術在考試實施中更是迅猛發展,從高考報名、準考證發送、考試安排、監考、閱卷到成績統計和發布等各個環節,都可以見證科技進步所帶來的高效和便利。各級政府部門在保障考試安全,扞衛考試公平上投入了大量的人力、物力和財力,成效顯著。除了硬件上的投入之外,測量、統計的方法和技術也在閱卷中廣泛使用。在多年試驗、探索的基礎上,2008年教育部頒布了《國家教育考試網上評卷暫行實施辦法》、《國家教育考試網上評卷技術暫行規範》、《國家教育考試網上評卷統計測量暫行規範》(教考試[2008]2號)三個重要文件,這些措施對提高閱卷質量起到了積極作用。最後一個分數解釋,令人惋惜的是,具體的舉措——標準分改革在經曆了多年試驗之後又幾乎退到了原點。標準分改革從1985年在廣東試點開始,隨後有關省份先後加入,截至1997年,推廣到海南、河南、陝西、廣西、山東、福建等省,涉及82萬考生,人數約占當年考生總數的三分之一。另外有20個省(自治區、市)開始在高考模擬考試中嚐試使用標準分,影響不可謂不大。然而,從2001年開始,以上試點省份紛紛停止使用標準分①,2007年廣東省也宣布停止使用。時至今日,全國隻有海南省還在使用這一分數製度。對於海南省的堅持,社會輿論中一直都存在質疑之聲,2013年12月,國家權威媒體還以“標準分還能挺多久”為題進行了報道。
高考考試標準化三項改革的不同遭遇引人深思:同樣的改革背景,同樣的改革主導價值,同一個改革主體,同一個改革時間點,動用了同樣的政策資源和專家資源,同樣也有測量、統計方法在考試中的應用,甚至改革者的熱情幾乎都一樣,為何唯獨標準分改革曇花一現?這項改革究竟觸及了什麼?改革是否合理?要回答這幾個問題,就要先看一看標準分製度提出的動因及其本身的合理性。
二、製度變遷的動因:為什麼要實施標準分?
(一)原始分的局限
從考試行業的規範和工作流程來看,分數報告是考試的最後一個環節,通俗地說,就是把考試成績告訴考生以及成績的使用方。分數報告主要建立在測量與統計方法之上,采用不同的算法,就會得到不同的結果。其中,原始分是最簡單的一種分數報告方式,通常被稱為卷麵分數,隻要統計一下答對題目的數量,參照各題的分值,經過簡單加法就能得出結果。如果把考生各科成績的原始分相加,就合成一個原始分總分,這個值的大小就可以表明考生水平的高低,高校招生時也就可以據此來劃線、錄取。原始分簡潔、明了,計算方便,這是優點。但是原始分的缺點也非常明確:一是分數的意義不明確,不能表明位次方麵的信息;二是穩定性欠缺,沒有可比性;三是不具備可加性。舉一個簡單的例子,某學生一次期末考試的成績(均為原始分)為:語文80分、數學70分、英語85分,表麵上看,這個學生的英語成績最好、語文其次、數學最差,而實際的情況可能並非如此。如果不考慮各科的平均分,這三個成績的優劣並不能加以判斷。如果語文試題簡單,平均分較高的話,該學生的語文成績可能較差。如果數學試題較難,平均分低的話,該學生的數學成績可能名列前茅。另外,原始分很容易受到試題難度、區分度等影響,而試題的這兩個測量學指標隻能在考試結束後才能計算出來,考試之前根本無法精確控製,因而原始分的不穩定性是顯而易見的。如果同一個考生連續參加兩次高考②,語文的原始分成績都是80分,或者某個考生高考語文、數學的原始分成績都是80分,從本質上來講這裏的80分根本無法進行比較,因為同一科目不同次、同一次不同科目考試的原始分單位分數的內涵完全不一樣。就像在體育的全能比賽項目中,如果某運動員跳遠的成績是7米,跳高的成績是2米,盡管兩個成績的計量單位一樣,但跳遠1米與跳高1米是不“等值”的。最後,原始分的不穩定性、單位內涵的不一致也決定了不能將它們簡單相加。如果一定要加總,就如同把不同貨幣按照其麵值綁定在一起,得到一個沒有明確含義的結果。道理很簡單,不同貨幣的單位值有不同購買力,1美元、1英鎊和1元人民幣的價值完全不一樣,3個“1元”加在一起,隻會帶來更多購買上的不便。然而,在我國各級升學考試中,將原始分相加進行錄取的做法早已成為習慣沿用至今。對考試成績的誤用或濫用,引起了政策製定者和理論研究者的關注。能不能找到新的辦法來消除原始分的種種弊端?標準分成為了理想的選擇。
(二)標準分及其科學性
針對原始分存在的種種不足,統計與測量專家們提出了與之相對應的一個概念,即導出分數。導出分數是在原始分數轉換的基礎上,按照一定的規則,經過統計處理後獲得的具有一定參考點和單位,且可以相互比較的分數③。其中,按照相應的規則和方法把原始分轉化為導出分數的過程可稱為分數轉換。分數轉換所采用的方法、算法和約定的規則不盡相同,導出分數的形態也有差異。標準分就是一種廣泛應用的導出分數。
標準分是依據教育統計與測量的原理和方法把原始分轉化為具有相同意義、相同單位和共同參照點,能表明考試成績在總體中位置的分數。一般用Z表示,是將原始分與平均分的偏差以標準差為單位表示出來的結果。用公式表示為:Z=(XA)S。其中:Z為標準分,X為原始分;A為全體被試原始分的平均值,S為原始分的標準差。從具體的算法來看,經過轉化後的標準分,具有以下基本屬性:第一,平均值為0,標準差為1;第二,分數之間等距,可以作加減運算;第三,轉換過程屬於線性轉換,不會改變原始分的分布形狀,也不改變原來分數的位置次序。其中的第三點非常重要,因為高校招生是按照分數的位置次序來錄取的。標準分的這三個屬性為分數使用帶來了極大的便利。因為標準分的單位相同且以標準差為單位來衡量考生分數與平均分之間的距離,不管考生群體的平均分、標準差有多大差異,轉換為標準分後,都是以1為單位來衡量考生分數與0之間的距離,度量標準統一且固定不變,因此不同科次考試的標準分之間就具備了可比性和可加性。但是,通過轉換後得到的標準分在一般情況下都帶小數,而且會出現負值。在大規模考試中的取值範圍一般在-3到+3之間。這對實際使用很不方便,也不符合傳統習慣。測量學家提出的做法是對標準分進行線性轉換,轉到更大的標準分數量表上,以消除負數和小數點。轉換的通行做法是將標準分乘以一個常數,再加上一個常數,兩個常數的值不一樣,最終得到的標準分結果也不一樣,常數的選擇可以根據需要、以約定的方式來確定。目前,國際上一些重要的考試和心理測驗都是以這樣的結果來進行分數報告,如托福、SAT、GRE、各種智力測驗等。我國當時標準分試點采用的轉換公式為:高考成績=500+100Z。值得注意的是,這裏的線性轉換盡管引入了兩個常數,但對所有考生的分數都一樣處理,相乘和相加的效果具有普惠性,同樣不會改變原始分的分布形狀和位置次序,隻是放大了刻度而已。需要指出的是,標準分轉換的一個前提是原始分正態或接近正態,對於非正態的情況則需要通過一定統計方法來強行正態化。這種轉換在方法上並不複雜,在考試行業中也很常用。本文關心的核心問題是:對於原始分的一係列統計處理,會不會帶來原始分位置次序的變化?會不會最終影響考生的錄取情況?
(三)標準分引起的考生位次調整