中國漢語水平考試(HSK)的回顧與展望(2 / 3)

1988年開始了計算機自動閱卷、評分係統的研製。這個計算機係統當時是在Dos下開發的,現在我們已經升級到了Windows下,但計算方法等基本的東西主要還是沿用了最初的設計。

1990年在技術上解決了“垂直等值”問題。所謂“等值”就是要使不同次考試的考生考出的水平能夠具有可比性(張凱2002)。這就要在不同的試卷之間建立對應關係。我們的考試有一個最重要的特點就是發等級證書,那麼就存在一個問題:我們發給考生的證書,現在發的A級和過去發的A級是不是體現一樣的水平?這就要求具有同樣水平的考生得到的分數是等價的。如何實現這種等價呢?在不同次的考試中,試卷難度的變化和考生水平的變化是不可預測和不可控製的,所以必須找到這一次考試所用的試卷與標準試卷之間的對應關係。研究者采用的是所謂“共同題”即錯測驗(anchortest)的辦法,就是在每一份試卷中都設置共同的題目,這些共同題目就能夠測出不同批次的學生水平差距怎麼樣,根據這個差距我們就能判斷題目是變難了還是容易了,也能判斷兩撥學生水平是不是一樣,差距到底有多大。這個道理說起來很簡單,但是其中的數學方法是很複雜的。

等值問題是我們在技術上的一個重大突破。桂詩春先生是國內第一個研究等值問題並在語言測驗中運用等值技術的專家。當時郭樹軍去找桂先生請教,得到了桂先生熱心指點。我們的方案也得到了桂先生的肯定。這就是我們現在所使用的等值辦法。這個辦法經過謝小慶博士不斷完善,一直沿用至今。

在等值問題解決之後,我們的主要工作就是如何提高題目質量的問題了。我們在命題、題目分析、內容效度方麵作了很多改進。有了等值之後,要把原始分數轉換成HSK分數。因為原始分數所提供的信息是有限的,第一,原始分數不能反映考生在團體中的位置。HSK考試作為水平考試,很重要的一點是考生的分數要準確反映出考生的水平,這個水平是相對的。第二,原始分數不能直接對幾個單項考試進行比較。因為各單項考試的分數比重不同,所以不能隻根據分數的高低就說考生哪方麵的水平比較高。原始分數究竟是怎麼轉換成HSK分數的呢?簡單地說,就是把考生放在一個虛擬的團體裏麵來找到考生的相對位置分數。為什麼說是一個虛擬團體呢,因為HSK考試每次的考生人數不是很多,所以每次考試中考生水平的變化都會影響到這一次考試的結果,那麼為了準確地區分考生的水平,我們就把每個考生的分數和我們所設定的標準參照組或者標準參照樣本進行比較,這個標準參照組是始終不變的,反映出來的考生的相對水平也是穩定的。把原始分數轉換成HSK分數,首先就是把各個單項的原始分數與標準參照樣本相比較,計算出一個能夠表示相對位置的Z分數。有了Z分數,單項和單項之間具有了可比性,一個考生和其他考生也具有了可比性。在Z分數中,最高我們取3分,最低取-3分,平均分是0分,也就是說,一個考生如果Z分數為0,他在標準樣本裏就處於居中的水平。以HSK(初中等)為例,為了給考生一個更容易觀察的分數,我們再把Z分數通過線性轉換轉換成為平均數為50,標準差為15的HSK分數,這就是考生所看到的自己的單項HSK分數;相應地,對於原始總分,我們則要把Z分數轉換成以200為平均分數,以60為標準差的HSK分數。HSK總分並非單項分數的簡單相加,而是經過了加權計算的。為什麼要加權呢,因為就一個考生的整體能力來講,聽、說、讀、寫各方麵技能的重要性是不同的,如果不加權就反映不出來考試設計者的這個思想。為什麼聽力理解有50個題目而語法結構隻有30個題目呢?說明試卷設計者認為聽力理解比語法結構重要,我們必須通過給分數加權的辦法反映出設計者的這種想法,所以我們在計算考生總分的時候,給了各單項分數不同的權重,這樣計算出的HSK總分當然不等於各單項HSK分數簡單相加之和。HSK[初中等]各單項分配的權重為:聽力:語法:閱讀:綜合=1:0.6:1:0.8;而HSK[基礎]和HSK[高等]各單項的權重均為1。

HSK考試一共包括三種考試:HSK(基礎)、HSK(初中等)和HSK(高等)。它們在等級上是相互銜接的,分數等級共分為十一級。

設定這樣的一個等級係統主要是參考了北京大學和北京語言學院的實驗情況。理工農醫類學生達到三級可以入係,文科學生達到六級可以入係。我們試驗的基礎樣本是:接受過一年漢語預備教育的留學生應該達到三級,接受過兩年漢語預備教育的留學生應該達到六級。這麼分級也存在一些問題,因為級劃得多,級和級之間的差別就很小,容易產生誤差。我們的考試精度達不到那個水平。

1990年2月份,由教育部牽頭組織了鑒定會,對HSK進行全麵的鑒定,有漢語言文字學專家、對外漢語教學專家、語言測試專家、心理測量學專家、計算機技術專家組成的鑒定小組,包括北京大學陸儉明教授,廣州外語外貿大學桂詩春教授,北京語言學院呂必鬆教授、王還教授,心裏測量學專家張厚粲教授以及計算機等等方麵的專家和領導。在鑒定會上,專家們普遍認為這個考試從信度、效度等方麵看都很好,是個非常科學的考試,並建議我們向海外推廣。於是從1991年開始,我們開始在海外選點,首選的三個點是新加坡、日本和澳大利亞。1991年的6月15日,在新加坡國立大學進行了HSK在海外的首次考試。

1992年,在國家教委主任李鐵映倡議下,我們組織了“首屆漢語考試國際學術討論會”,李鐵映會後還接見了我們漢語水平考試中心的全體同誌。接著他簽署了國家教委第21號令—《中國漢語水平考試(HSK)辦法》,要在外國人當中實施漢語水平考試。

HSK考試之所以吸引了越來越多的考生參加,影響日益擴大,很重要的一個原因是考生對於獲取漢語水平證書的需求在不斷增長,然而還有一個不能忽視的原因就是HSK是一個讓人信服的考試,是一個科學化程度很高的考試,它的可靠性(信度)和有效性(效度)都得到了證實。

對於任何一個考試我們評價它的優劣至少是從兩個方麵考慮,一個是信度,一個是效度。

信度是指一個考試的結果的一致性和穩定性如何,如果對同一群考生實施同一個考試,在考生的知識和能力水平不變的情況下,多次考試的結果是穩定的、一致的,那麼我們就認為這個考試是可靠的,或者說它的信度比較高。信度可以用信度係數表示,一般認為標準化考試的信度係數應該在0.90以上,托福考試在0.95以上,而HSK考試一般是在0.98左右。HSK之所以有這麼高的信度,一方麵是由於它有足夠多的題目(例如HSK初、中等有170個題目),這大大降低了考生答題的偶然性;更重要的原因是HSK每一個題目都經過預測,正式試卷的題目是經過對預測結果進行統計分析以後篩選出來的,選題的標準之一就是看其是否能夠區分考生的水平,叫做區分度。HSK預測篩選題目的標準是每個題目的點雙列相關係數達到0.25以上,近年來多數題目都能達到0.30以上。可以說漢語水平考試的每一個題目都是具有相當的區分度的,這就保證了整個考試的內部一致性,從而保證了它的信度。

比信度更為重要的是考試的效度,效度是指一個考試是不是測到了它想要測的東西,是否達到了測量的目的。如果一個叫做“漢語水平考試”的考試考的不是學生的漢語水平而是別的能力(比如記憶能力、計算能力等),那麼這個考試就是無效的或者說是效度不高的。效度的證據不像信度的證據那麼容易獲得,而是需要長期的積累。HSK經過多年的考試,積累了不少的效度的證據,HSK的用戶認為HSK的確能把考生的漢語水平高低區分開來,HSK的確考出了學生的實際漢語水平。我們也對HSK的效度做了一些實證性的研究,比如把考生的HSK分數與教師對他們的主觀評價做相關分析,證明這類相關是比較高的,說明HSK是有效的。

HSK是一種標準化的考試,HSK的標準化程度是非常高的。所謂標準化是對考試的全過程都實施標準化,包括試題編製的標準化、考試實施的標準化、閱卷評分的標準化以及分數轉換與解釋的標準化。HSK在這個環節上都做了嚴格的控製,最大限度地減小考試的誤差。比如在試題編製標準化方麵,我們堅持了語言材料真實性(不加修改)和預測選題的做法;在施測標準化方麵我們用統一的錄音指令代替主考人的宣講,使考試在同樣的條件下進行。

HSK是在語言學、對外漢語教學、心理測量學和教育測量學以及語言測試理論指導下,結合漢語特點而設計的一種漢語作為第二語言的水平考試,其科學化程度是很高的,得到了廣泛的承認。

三、漢語水平考試的局限性

HSK考試作為第二語言的水平考試,它對於對外漢語教學的推廣起到了十分積極的促進作用。另外,作為一項考試,HSK能夠給教學提供一些反饋信息。但是HSK畢竟隻是一個考試,它是一個可靠的、有效的測量工具,但它不是一個提高教學水平的手段或工具。考試的任務僅僅是準確地測量考生的水平而不是提高學生的水平,要想真正地提高教學質量,還得從教學的理論、原則、方法上多下功夫。HSK是水平考試,它有自己的要求,教學也有自己的要求,教學沒有必要圍繞著HSK轉。