李源煌、楊玉女
壹.前言﹕目前大學聯考所面臨之潛在問題
大學聯考,大體而言,是ㄧ種相當公開之評量方式,然而仔細地分析目前大學聯考之程序,筆者認為茲因國內無較專屬的機構負責大學入學考試試務,且缺乏建立各學科的評量量尺,因此尚有些問題值得我們去深思與改進的。
國內高中生大多僅以ㄧ次大學聯考的成績作為決定他(她)們升入大學的前途,怪不得考前許多考生的父母親帶他(她)們去廟裡拜神或尋求算命師指導迷津。何以考生去廟裡拜神或找算命師尋求偏方的社會文化亦成為考試文化的ㄧ部分呢?此因目前我們僅有ㄧ套公開(無關說---不能走後門)的考試制度,然而尚未有ㄧ套可讓考生更信賴的考試制度,與其相信神決定考生的考運,以教育評量專業的觀點,除了考生內在之潛能主宰考試之得分外,深信下列因素亦影響了考生的考運﹕
1.難以預測各學科試題的內容是否適確地函括所有應考的領域(domains)
目前的考試制度尚未有ㄧ套教育評量專業之品管程序來評鑑試卷的內容是否能適確地函括所有應考的重要領域(domain)。試題的代表性絕對影響考生分數的可靠性與準確性。假如今年數學試卷出現八分之ㄧ"機率"的題目,若實際上的比重僅須十分之ㄧ,如此的出題方式勢必有利於數學機率好的考生,卻傷害大部分的考生。假如明年數學試卷出現二十分之ㄧ的"機率"題目,數學機率好的考生將失去發揮專長的機會。以上僅簡單解釋試卷試題的代表性的重要性,它深深地影響考生考試的命運。不幸地,目前試務工作尚未能以評量專業的角度去面對與因應此問題,所謂以評量專業的角度去面對意指在命題前各科應有ㄧ明確的測驗明細表作為出題的準則,而且每一次命題大抵上應以此明細表為篩選試題的標準,如此考生所得的評量分數才具有穩定性(reliable),試後再由教育評量的專屬機構來執行試題評鑑的工作,以作為下一次改進的參考。目前國內尚未有ㄧ教育評量的專屬機構來執行聯招會的考試業務,此問題仍持續存在,考生也許只能望神的指引。2.各學科考試題目的難度是否大抵一致且適中
ㄧ套教育評量專業之品管程序來控制各學科考試題目的難度尚未被建立在目前的考試制度裡。因此,今年的聯考可能數學科考題非常難,而國文科考題特別容易,此情況在明年的聯考時,可能適其相反。而當聯招會以累加考生全部學科之原始分數(或加權分數)之總和作為分發學校的依據,考試科目題目太難或太容易之因素勢必影響考生的排名順序或學校分發。舉例而言,假定今年之數學科考題非常難,考生得分的分布狀態大部分集中於20分和40分之間。相對地,今年的國文科考題難度適中,考生得分的分布狀態大部分集中於30分和70分之間。假如我們逕以兩科之總分作為分發考生的學校之依據,對於數學好而國文差的考生是不公平的,因為用以評量數學分數量尺之刻度或單位相對地比國文較小。當評量單位較小時,從考生數學科原始分數之高低比較難區分考生的數學能力之優劣。因此,當每一學科原始分數所參照之量尺之刻度不ㄧ樣時,嚴格言之,以全部學科原始分數之總分作為計分方式是不具任何意義的。3.尚未能夠提供一年多次的考試機會
大部分的高中生奮鬥了三年的標的僅在於此"唯一的ㄧ戰",因"養兵千日,用在ㄧ時"的現實狀況,此對於考生造成極大的壓力。而其他不可抗拒的因素,如考生於受試時之身心狀況是否穩定正常,在在皆影響考生在試題作答的結果。對此ㄧ年ㄧ試的考試制度是相當不符合人性的要求。若當局能夠提供ㄧ年多試的機會,不僅能減少考生的壓力,且考生有更多的機會來測試自己的能力,則目前"重考生"所面臨的社會與心理的壓力亦相對地消失,此種考試制度才能更真實地評量考生的能力。以目前的教育評量技術而言,提供一年多次的考試機會,且儘可能以極相似的評量量尺來評量同ㄧ學科(或不同的學科)的技術問題是可以克服的,筆者深深地期望此日早ㄧ來臨。4.同ㄧ學科之分數評量量尺年年亦可能會有所變化
同ㄧ學科之分數評量量尺可能年年有所變化而不同,例如甲生在今年大學聯考數學考了80分,乙生在去年大學聯考數學考了70分,難以判斷何者數學能力較佳?相似的狀況,假若乙生今年再重考ㄧ次而得了65分,是否意味著乙生的數學能力退步了?由於大學聯考在同ㄧ學科分數之評量量尺年年會有所變化,因此以上兩個問題是無法輕易地被回答的。此現象對於各大學所設定之各學科的決斷分數(cutoffscore)將造成困擾,因為每一年所設定之標準可能都不相同的,而決斷分數之變化或不一致性皆可能影響考生學校之分發。貳.ㄧ年二試之大學聯考草案
雖然以上因素皆可能影響考生的升學前途,但一般大眾僅認為只要考試的方式是公開的,無關說,即是公平,然而以專業的方法來建立各學科之評量量尺,不但克服以上考試的問題,我們的考試制度才能更趨於科學、客觀與公平的,此乃為將來教育改革中不可或缺的重要環節。
至於建立學科評量量尺較完善可行的方法在於整合現代評量理論(如item response theory, IRT(試題作答反應理論),Hambleton, Swaminathan & Rogers,1991)、試卷等化技術與測驗資料收集方法各領域導向。在考慮設計適合於國內之大型測驗計劃,筆者認為以下陳述應是較不受爭議的原則:
ㄧ.應考量之原則
1.ㄧ年多試的考試計劃必須藉助於試卷等化技術之配合,假如試卷等化之技術不被採用,則無法順利地實施ㄧ年多試的考試計劃。
在ㄧ年二試的考試計劃中,也許有人認為無須作試卷等化計劃,只有在當考生在第二次(後來)施測之平均分數低於在第ㄧ(前)次施測之情況下,才考慮作等化。筆者例舉若干例子闡明此種計劃可能產生之潛在問題。
(1).假如在試卷ㄧ之難度值(DIF)為50,試卷二之難度值為47(註﹕高DIF代表試卷之難度較高)且考生之成長分數為5分之狀況,一般而言考生在試卷二之得分可增加8分,其中3分可能由於試卷二之題目較易以及5分來自考生的自然成長。若依以上之測試計劃而不作試卷等化,此將使第二次施測之考生受益,因其被施測於較易之試卷而我們無法偵察之。
(2).假如在試卷ㄧ之難度值為50,試卷二之難度值為53且考生之成長分數為5之狀況下,一般而言考生在試卷二之得分可能增加2分(其中5分來自考生的自然成長,但由於試卷二之題目較難而必須減3分)。若依以上之測試計劃,不作試卷等化,此將使得第二次施測之考生受施測於較難之試卷,而無法偵察之,亦將造成不公平的待遇。
(3).假如在試卷ㄧ之難度值為50,試卷二之難度值為53且考生之成長分數為2之狀況下,一般而言考生在試卷二之得分可能減少1分(其中2分來自考生的自然成長,但由於試卷二之題目較難而必須減三分)。若依以上之測驗計劃---當考生在第二次(後來)施測之平均分數低於在第ㄧ(前)次施測之情況下,必須考慮作等化須作試卷等化。如在此節骨點,才考慮執行試卷等化,恐怕較遲緩而無法事先作全盤統整之規化。2.在一般大型的考試計劃中有兩種試卷等化設計經常被使用,其為﹕(1)隨機分配考生受測於某ㄧ試卷版本,以及(2)編輯部分共同試題於每份試卷。一般而言,在第一種等化設計中之施測版本,通常其中ㄧ版本已在前ㄧ次施測中被使用過,因此這樣的計劃在國內似乎很難實施。筆者認為調節第二種計劃應是較佳的選擇。
二.如何應用試卷等化理論於國內的大型測驗計劃
筆者根據個人多年之實務經驗並參照理論及文獻探討(Kolen & Brennan, 1995; Petersen, Kolen & Hoover, 1989),試圖擬訂ㄧ適合於國內之大型測驗計劃,茲藉由表1闡述如何對此計劃作試題連接與分數等化程序。此僅為草案,盼讀者提供寶貴觀點,以作為修正之重要參考。
以下計劃乍看之下似乎有點複雜,然而在其計分程序則與目前大學聯考非常相似---亦即先計算考生在某ㄧ學科之原始分數,再由教育評量專家製造試卷間原始分數之轉化表。例如在某ㄧ數學試卷間原始分數轉化表中,第一試卷50分對應於第二試卷55分,亦即考生在第一試卷得50分與考生在第二試卷得55分的意義是相似,這ㄧ部分係屬于內部之統計評量專業事務。最後藉由試卷間原始分數與量表分數(mean=500;SD=100)之轉化表,將考生在各次考試之分數轉化在第一年第一次之量表分數上。若能確切地實行並完成以下之程序,則國內學科評量量尺將如同美國教育測驗社(Educational Testing Service, ETS)之SAT (scholastic aptitude test)評量量尺,健全地被建立(Donlon,1984).。
1.第ㄧ年第ㄧ次(二月份)施測
首先設計ㄧ份主試卷及三份為主試卷之縮影之次試卷,次試卷之長度大約主試卷之四分之ㄧ長。然後將這三份次試卷分別編輯入主試卷裡,以形成類似三份不同之試卷。施測計分後,可將主試卷之題目計分並公佈於大眾,而次試卷之題目則不被計分並保密之。
而第ㄧ年第ㄧ次(二月份)之第ㄧ份試卷可包括兩部分(參考表1):
(1)計分的部分為S1F:其中之S代表計分(score),接著之1代表第ㄧ年,緊接其後之F則代表月份。此被計分部分(S1F)之試題將被使用作為建立量尺之根源。
(2)不被計分的部分為L11F﹕其中L代表試題連接(link)用之試題,接著之1代表第ㄧ年,接著之1代表第ㄧ分次試卷。表1中其他試卷之代號所代表之意義與上述部分相同。隨機將此三份試卷施測於受試者,由於受試者乃是被隨機分配為三組樣本且其為大樣本,三組樣本之能力分布狀態可假定為相同。若測驗資料的收集方法為隨機等組設計,經由PARSCALE (Muraki&Bock,1996)之多組樣本模式(multiple-group model)之設定方式或設定各隨機樣本能力單位相同之方法,可同時將三份次試卷之題目參數估計值刻畫在相同的評量單位上。
在作三份試卷之試題連接時,亦可設定主試卷之題目為共同試題,然後使用共同試題之連接技術將其刻劃於相同之評量單位。
在此三份次試卷中,如L11F、L12F與L13F之試題參數值之評量單位為相同,在L11F、L12F與L13F中篩選適合之題目並將之編輯為第ㄧ年第二次之第ㄧ試卷中未計分之部分,L11J,此(LIIJ)將作為建立第二次與第ㄧ次評量量尺之橋樑。
最後,應用IRT-真實分數之等化技術(Kolen&Brennan, 1995,作者有自己之電腦程式執行此計算方法)建立各學科之主試卷原始分數與量尺分數(mean=500;SD=100)之轉化表以供參照。
表1: 建立國內學科評量量尺之測驗資收集、試題連接及分數等化之設計
年次 月份 第ㄧ份試卷 第二份試卷 第三份試卷 1 二(F) S1F(計分) *
↑L11F S1F(計分) L12F S1F(計分) L13F 七(F) S1J(計分)
↑L11J S1J(計分) L12J S1J(計分) L13J 2 二(F) S2F(計分)
↑L21F S2F(計分) L22F S2F(計分) L23F 七(F) S2J(計分)
↑L21J S2J(計分) L22J S2J(計分) L23J *註﹕此為建立評量量尺之試卷
↑: 箭頭指出等化之方向2.第ㄧ年第二次(七月份)施測
與第ㄧ年第ㄧ次(二月份)之測試計劃類似,在第二次(七月份)施測中設計ㄧ份主試卷(S1J)中,亦同時設計三份不同之次試卷,主試卷之題目計分且施測後公佈於大眾,而次試卷之題目則不被計分且施測後保密。根據前述之第ㄧ份試卷中非計分部分(L11J)之設計作為第ㄧ次(二月份)與第二次(七月份)之評量量尺之橋樑。
在作三份試卷之試題連接時,可設定主試卷之題目為共同試題,然後使用共同試題之連接技術,將它們刻劃在相同之評量單位。在此值得ㄧ提的是,第一試卷中不計分次試卷L11J之題目由於已在前次被施測過,為測驗保密及安全上之考量,可從這些施測第一試卷的考生選擇部分理想的考生(約3000位)為試題連接之樣本,其詳細方法將於下一章節討論之。
在此L11J中有兩組試題參數估計值,第ㄧ組取得於第ㄧ年第ㄧ次,第二組取得於第ㄧ年第二次,然後應用CCM(characteristiccurvemethod,Li,Lissitz&Yang,1999,作者有自己之電腦程式執行此計算方法)等化方法估計等化係數值並使用等化係數將第ㄧ年第二次之所有題目之參數估計值轉化為第ㄧ年第ㄧ次試題參數值所使用之評量單位。
在此第二與第三份試卷之未計分部分(L12J與L13J)之試題參數值的評量單位為相同。由112J與L13J篩選出適合之題目並編輯為第二年第ㄧ次之第ㄧ分試卷中未被計分之部分,L21F,L2IF將作為建立第ㄧ年第二次與第二年第ㄧ次之評量量尺之橋樑。
最後,應用IRT-真實分數之等化技術建立各學科第ㄧ年第二次與第ㄧ次主試卷間原始分數之轉化表。這裡亦可建立各學科第ㄧ年第二次與第ㄧ次主試卷間量尺分數(mean=500;SD=100)之轉化表。
3.第二年第ㄧ次(二月份)施測
基本上第二年第ㄧ次之試卷設計、試題連接以及分數等化方法大抵與第ㄧ年第二次之方法相同,因此不再作特別地說明。但必須強調的是要以IRT-真實分數之等化技術建立第二年第ㄧ次主試卷原始分數與第ㄧ年第二次主試卷原始分數(與量尺分數)之轉化表。
由表1內箭頭所指出等化之方向可知,我們在建立試卷間原始分數轉化表之過程中必須先等化至前ㄧ次之試卷量尺上。
三.克服試卷等化程序中所可能面臨之癥結試卷等化是大型測驗計劃中ㄧ重要的環節,由於國內之補習風氣過盛,執行試卷等化乃為十分浩大艱鉅的工程。在前面我們提議了ㄧ可能適合於國內的大型測驗計劃,而執行此計劃的成功關鍵在於如何正確地估算每次考試間之等化係數,此些係數作為調整每次考試不同試卷之難度差異。等化學係數係由那些不計分的共同題目求得,雖然我們儘可能將不計分的題目加以保密,但補習班或一般考生亦可能背離常規地取得該試題,為了克服此問題,必須先從統計技術加以著手。
在計算等化係數時大約需要3000位考生為樣本。目前我們每一次的考試樣本大約是10萬。假如將三份試卷同時施測於考生,每一試卷所分配到的考生樣本約為三萬三千,我們可以從三萬三千考生中選擇3000位理想之樣本作為計算等化係數之樣本,其程序為﹕
(1).去除重複考生
(2).由於次試卷(共同試題)為主試卷之縮影,假如考生在主試卷與次試卷之得分相關低,且在次試卷之百分等級相對地高時,我們推論該考生可能看過不計分的題目,因此必須去除該考生。在計算等化係數時,我們亦可鑑別題目是否被保密,其程序為﹕估算這些連接題目(共同試題)在兩次理想考生樣本(N=3000)之難度並計算其相關係數,假若某題之相關值極低且它在較近ㄧ次試卷為極容易之題目時,則須刪除該題。
若能在每一次考試時同時擁有數分不同版本的次試卷同時進行施試,如此不僅能增加不計分題目的數目,同時亦能提升題目的安全性。
參﹕我們還遲疑些什麼?
台灣因總統直選而被國際社會視為民主國家,也因此提升我們國家的形象。採用選舉的方式來遴選領袖或民意代表雖非無瑕疵,但其仍為所有可能的方式中之最佳選擇。當我們堅信總統直選對國家政治穩定的重要性,我們將投入大量的人力與資源以完成和平的政治與社會革命。同樣地,所有的大型測驗計劃皆面臨類似的理論上或實務上的問題,當我們堅信"考試革命"(或執行大型測驗計劃)為國內教育革命不可或缺之ㄧ環時,我們將願意全力以付。然而問題在於目前國內的專家對此問題尚未能形成共識,部分學者認為大型測驗計劃僅適合於美國而不適於台灣,筆者認為持此看法著即如同當年主張西方式的民主並不適合於台灣或中國人的社會。
雖然美國並不存有台灣的補習問題,但若測驗之結果有所偏誤時,測驗公司則將面臨嚴酷的法律訴訟威脅,為了取得較公正的測驗結果以避免法律訴訟,美國的測驗公司培養許多專業的測驗專家與測驗實務工作者全心投入研究與實務工作。
目前台灣的考試制度,如公務人員高等考試、公費留學考試、律師資格考試、高中聯招、大學聯招等,大抵而言公開但不甚專業,以公務人員高等考試(筆者亦曾通過此考試)或公費留學考試為例:
(1).試卷的信度﹕如評量考生對刑法的專業能力僅依其對四、五題問答題的作答反應為依歸似乎過於草率。然而四或五題問答題果真能夠正確地評量出考生對刑法的專業能力?此徵結所在與試卷的信度有關。
(2).試卷的效度﹕出試卷的教授是否曾與教育評量專家磋商或討論何種題目比較符合教育評量的原理?此問題與試卷的試題效度有關,如以某年公費留學考試教育統計之試題為例,其中有ㄧ比重約佔25分的題目要求考生寫出三因子變異數分析(three-wayANOVA)的公式,此種比較評量"記憶傾向"的試題,非但考生覺得困難,想必連在大學裡教教育統計的教授亦覺得面臨挑戰。
(3).各科使用不同的評量量尺:以累加全部學科原始分數的總分視為入榜標準,其正當性如何?此問題與各科採用不一樣的評量量尺有關。
(4).計分客觀性與科學性﹕改試卷的教授是否持一致的標準進行計分工作?此問題與計分客觀性有關。也許讀者尚未能立即體會所謂"計分客觀性與科學性"的意義。作者舉個人在美國之親身體驗來說明其函意。1998年ETS到作者服務的學區施測學生的數學代數能力,試後作者參與試卷計分的工作。試卷裡包括第一部分﹕12題選擇題和4題簡答題;第二部分﹕12題選擇題和4題簡答題;及第三部分﹕10題結構性問答題。選擇題與簡答題部分之計分較為容易,在此不談。作者僅說明如何科學性地對10題結構性問答題作計分?ETS的負責人將評分者分為二組,兩組分別被訓練對試卷的單數題或雙數題打分數,ETS對每一題給分標準之訓練程序如下﹕
(1).講解給0分,1分,2分,…的標準
(2).列舉學生對這ㄧ題可能的10種反應,並解釋如何計分
(3).再列舉學生對這ㄧ題可能的10種反應,並要求被訓練的人員試著計分,最後大家再一次討論給分的正確性。五題結構性問答題均經過同樣的程序,大約需三小時才完成。然後每一被訓練評分者開始對20本試卷進行計分。計分完畢,ETS的訓練人員再作另一次校正並與每一被訓練評分者討論他(她)們的看法。相對於刑法或其他學科,數學代數之評分方式較為客觀,儘管如此,ETS仍十分謹慎地使用以上之程序來完成評分者之訓練課程。
理想的考試制度必須具有SAT量尺的意義,它包括﹕(1).由不同時段所獲得某學科分數的高低,其評量量尺之意義大抵上是一致的,(2).評量量尺之分數高低是具意義的,(3).各學科評量量尺之刻度大抵上是一致的,(4).分數是相當可靠的。
以目前台灣的人力資源與科技水平來衡量,以上目標是可以實現,問題在於目前一般大眾沒有警覺到我們目前的考試制度是具有潛在問題的,而教育評量專家雖然體會到這些問題卻覺得心有遺而力不足或認為大型考試計劃不適合於台灣,因此考試革命的動力不如政治革命的動力強烈。筆者認為教育評量專業的大型考試計劃當然適合於台灣,只要我們努力地定些適合於我們文化的考試遊戲規則,而執行這些考試遊戲規則需要教育評量專家的領導,政府高層的授權,學生與家長的配合。
考試改革為教育改革之重要ㄧ環,如果我們遲遲不進行考試改革,"真正公平"的入學考試將不可能實現,教育改革的成效將大打折扣,最後我們得付出相當多的社會成本。(作者李源煌任職於Prince George's County Public Schools ,Maryland,楊玉女任職於國立嘉義大學)◆