亞 太科學教育論壇,第九期,第一冊,文章十三(二零零八年六月)
李揚津
英國APU科學成就調查
上一頁 內容 下一頁

試卷的設計

測考模式

由於評估所牽涉的內容項目眾多,每次測試只能評估部份項目。每個子項目都設有一個試題庫,部份試題適用於兩個或三個年齡組別,以便於比較跨年齡的成就差異。每個子項目的試題庫有約二百條考題,而每次評估測試只使用4560題不等,然後再以隨機抽樣方式,抽取約15 20題印成試卷予學生作答。每次調查約使用30份不同的試卷。11歲組別的評估時間約45 分鐘,而其他組別的時間為一小時。在筆試前或後,會抽取部份考生進行實作測試。

大部份考題是以筆試方式進行,部份項目例如使用量度儀器,及進行觀察,則採用實作測試方式。在實作測試,每題所需的儀器會被放置於考場的一個區域內,考生輪流到不同場區作答(Schofield et al, 1982) 在評估進行探究這主項時,除了根據考生的書面答案外,亦會參考觀察員對考生的反應所作的記錄。以書面作答的題目類型包括多項選擇題,短答題及開放性的問 題。多項選擇題的好處是可以縮短作答的時間及利用機器評分,也可以避免因評卷員的錯誤判斷而出現誤差,但缺點是可以讓考生猜測答案。

實作測試有兩種執行模式,第一種是迴圈方式,各考生在考場內輪流進行多項實作活動,包括運用儀器量度及觀察,器材由大會向考生提供,雖然是實作測試,但考 生須以書面方式作答。第二種是個別測試,適用於評量第六主項,即進行整項探究。個別考生須單獨接受評估員測試,評估員先向考生提出問題,引導考生進行實作 探究,評估員會在旁觀察並記錄考生所用的方法,事後評估員需要填寫一份評估清單,以記錄考生在探究中的表現,這種模式主要應用於進行探究這項目上,有關評 估實作測試的詳細程式可參考Welford et al (1985)Murphy and Schofield (1984)Murphy and Gott (1984) Gott and Murphy (1987)

每一考題的分數由零至三分,而多項選擇題則為零至一分,由於選擇題的分數較為劃一,可以容許考評當局在每次評估時,採取較靈活的分層任意選題方式準備考卷。這樣,每份考卷的試題組合便不相同,可以避免學校刻意操練學生應試,令評估更為公平。

學校問卷

此研究亦設有學校問卷,目的是收集各參與學校向學生提供的科學教育的資料,以便於找出學校所提供的科學教育與學生的成就表現之間的關聯。問卷的內容包括科學教學的師資和資源,進行科學教學的目的,對科學教育的重視程度,分配予科學教學部門的財政資源等。11歲和其他年齡組別的問卷內容有很大差別,這是因為當時英國的小學所推行的科學教學存在頗大差異,但到了中學階段,科學課程漸趨統一。以下是用於不同年齡組別的學校問卷的一些題目例子(Driver et al, 1982; Schofield et al, 1982)

11歲組別:

例如:

(問題經簡化)
 

1315歲組別:

學生問卷

學生問卷的設置主要是為幫助分析學生的成就表現,以貫徹APU的第四項職能 識別學習環境與學生學業成就差異的關聯。問卷旨在瞭解學生多方面的背景資料, 例如:性別,種族,修讀科目,職業取向,對有關科學議題的興趣;問卷亦問及學生課餘的興趣及嗜好,這是基於越來越多研究發現,學生的課餘活動與他們學習科學的興趣有關。

效度和信度

為提高評估的效度和信度,小組邀請了科學教育的專家 包括大學教授,教師,考試局成員,督學等審議各範疇的主要項目,子項目和考題描述句,並試行將考題按照小組所設定的框架分類,從而評估框架的有效度,以及各主項目,子項目和考題描述句的清晰度,如有需要便提出修改,透過專家的共識,令評估框架更臻完善。

小組亦進行了先導試驗,以分析考生在不同子項目上的表現的相關性。每一考題草擬後必需符合兩個條件才會被納入試題庫之中,一是專家小組一致評定為具足夠效 度;二是該考題的性質必需與其中一個考題描述句相符。此外,評分準則亦經標準化的過程。每位評卷員都是經過特別培訓,以確保評分過程的可靠性。但如要保證 評量實踐性考題的客觀性及信度時,則較為困難。這方面惟有依賴先導試驗,以減少由不同評估員作評量而出現的差異 (APU, 1979)

對於進行整項探究的評量分析,小組針對其所設的探究框架下的每一個步驟擬出評量的仔細標準,然後統計達至這些標準的學生人數的百分比,以瞭解學生在不同步驟中的成就表現(Gott and Murphy, 1987)


Copyright (C) 2008 HKIEd APFSLT. Volume 9, Issue 1, Article 13 (Jun., 2008). All Rights Reserved.