這個假設在實際運用中被發現,它至少不完全成立。這些獨立變量與教學效果之間的關係很複雜,並不總是線性關係。例如,幾乎每一個評估表都有一個講授內容科學性的項目,如果講課教師把主要觀點講錯,犯了科學性錯誤,但他在其他方麵都有良好表現,結果因“教學不得法”使學生牢固地掌握了錯誤概念。這一節課從教學效果上來講應該是一節失敗的課,f應該是負值。可是如果用權重乘以項目得分的方法,即隻有科學性一項得零分,總分至少能及格,在某些評估表中這一項隻有幾分,這樣一來這節課甚至成了好課。實際教學中犯科學性錯誤,並不是罕見的。再如在調查中,某所學校一位教師在教“用電常識”這一節課時,重點突出,無科學性錯誤,學生又愛聽,這一位教師還特別注意聯係實際,但是他講了許多使電表不轉,用電表“偷電”的方法,又沒有去正麵引導學生不去“偷電”。課後聽課教師一致認為客觀上他在唆使學生去“偷電”,對學生進行了不利於思想健康發展的教育。由於一般評估表在思想教育項目上的權重極低,有的在正表中都沒有,這樣一來按權重給的分往往很高,這一節課很可能被評為優秀課。

用權重乘以項目得分還存在其他的一些問題,例如對於不同的課型,各項指標相對重要性程度不一樣,權重也應不一樣。這就帶來了確定權重的複雜性問題。對於項目多的評估表,這個問題更為突出。

上述問題解決的關鍵在於不能讓有特別差項目的課被評為好課或檔次較高的課,更不允許有嚴重科學性錯誤或思想問題的課合格,鑒於這個原則我提出的評分標準如下:

將評估表中每個項目分為A、B、C、D4檔,A等為評估表上“非常好”和“很好”2項;B等為“好”和“較好”2項;C等為“略好”、“中等”、“略差”3項;其餘為D等,每等間隔設為相等。之所以分為4檔是為了簡單和便於歸納。評分為優、良、合格、不合格4個檔次,這4個檔次具體分法如下:

1.優秀。優秀課中最多隻能有兩項得B,其餘必須為A,不允許有C和D的項目。根據評分原則不應有特差的項目的規定,我們沒要求全是A,是因為那樣要求過高,而且我們評課是依個人判斷去打分,有時A與B之間界限並非十分明顯。

2.良好。良好課的要求平均分為B或B以上但低於優秀標準,隻允許出現一個C,不允許有D。這樣做的理由也是根據評分原則。

3.合格。合格課其平均分大於或等於C但低於良好要求,隻許有一個不屬於科學性或思想性問題的D,理由也是按照評分原則。

4.不合格。其餘課為不合格。

上麵的評分方法也有缺陷,它的等級太粗,如隻需判斷是否合格或者是否在該檔次中是否可以應用。如果要區分出名次,這種方法隻有在屬於不同檔次課時才能排出來,這就不如用權重打分那樣可方便地進行名次排列,以便進行比較。改進的方法是將兩者結合,具體做法是:先按優秀、良好、合格、不合格進行課的歸類,這樣做就避免了用權重打分的不合理性,然後在同一檔次的課裏按權重打分進行比較,排出同一檔次課的名次,再按檔次排列出總的名次。

(三)指標初步試用結果

評估表的好壞要經過實踐來檢驗。評估質量的高低有兩個重要的方麵,一是看測量結果是否有效,另一方麵是看測量結果是否可靠。

所謂評估是否有效是指該評估是否準確地測到所要測的東西。評估必須要有效。初步實踐後,參評的人員認為該指標體係能反映教師上課的情況,所發現的問題都能在評估表上找到相應的項目。例如從評估結果可以清楚地看出,他們的教學有忽視能力培養的缺陷,這正是這所學校要改進的方麵。評估表項目間界限明顯,有較高的效度。

可靠性就是指測量結果應是穩定、一致的,在教學評估中用同一種評估方法去評估同一教學現象,每次得到的結果應基本相同,可靠性程度又稱為信度。我在試用過程中采用判定評估者之間的一致性來確定評判的可靠性。要使評估在評定上是穩定一致的,應該使同一評估群體的所有評估者都做出相同評估。確定評估者之間的一致性程度可通過肯德爾和諧係數的方法進行檢驗。經檢驗初步試用在0.05~0.01間顯著性水平上一致。一般認為顯著性水平在0.05~0.01間為顯著,達到0.01就認為極為顯著,所以結果認為可靠。