英國APU科學成就調查

亞太科學教育論壇，第九期，第一冊，文章十三(二零零八年六月)
李揚津
英國APU科學成就調查

調查的優點與不足
APU可以說是開創了英國以技能為本的評量調查的先河，調查有系統地將科學探究對技能的要求有系統及具體地分為若干主項目和子項目，並以這些項目作為命題的基礎，以保證考題的效度，成為日後此類調查的濫殤。調查亦將學生的成就表現與學生及學校的背景資料作比較，以辨析其中的關係所在，從而辨析一些可能影響學生成就的因素。

但是，本調查亦有很多不足之處，有些是與調查的目標和可行性有關，是關乎理論與實踐的問題；有些是與問題或問卷的設計有關；亦有些是與其調查方法有關，關乎信度的問題。首先， APU調查主要是希望監察在學兒童的成就，與及識別低學業成就的情況” ，但調查的分析結果只能反映學生在本調查各項目和子項中的表現，而不能提供學生成就的標準或指標，因此很難對學童的整體成就作出判斷。

第二，正如DES(1989)指出，調查的評量框架主要反映參與調查計畫的專家的共識，背後並沒有很強的理論基礎予以支持，所以難免會存在一些結構性的問題，例如一些子項之間互有重複的地方，包括“運用圖表及表格”　與“分析資料，設計實驗與進行實驗等，因此，學生在不同項目中的表現，並非完全獨立。在擬訂考題的過程中，子項目仍被不斷修改，以避免重複，令人對這些評估結果的效度產生懷疑。

第三，小組亦承認過程技能的發揮，是很受探究的情境和學生對相關概念的掌握程度所影響，事實上，很多考題並不能將內容或概念完全抽離，例如在很多評估觀察能力的考題中，只有那些已具備相關概念的考生，才能取得被評卷者視為正確的觀察結果(Driver et al 1982)。此外，很多子項目也要建基於數學及統計學概念例如比例，機率，平均值等 (DES, 1989) 。

正因如此，縱使學生在某些考題中有出色的表現，亦不一定表示他們能夠將此等技能遷移至其他問題情境之中，好像在「進行探究」這項目中，學生在不同活動的表現存在顯著差異，可見學生的成就表現是受其概念所影響。

第四，調查嘗試找出與學生成就相關的因素，但從學校和學生問卷所搜集到的資料卻未見深入，調查所得的相關因素研究結果與預期的有明顯分歧，仍需要利用更深入的方法去瞭解不同相關因素之間的互動關係。

第五，由於每次調查所抽取的題目都稍有不同，因此隸屬於相同子項目的考題的分數必須劃一，否則該子項的總分便會出現不一致的情況。為了遷就分數的一致性，學生在個別考題所獲得的分數，就未必能夠完全反映他們在這些考題中的表現。

第六，此成就調查計畫歷時數載，考題也經歷不少變化，例如某些題目原先只出現於一個組別，後來被應用於其他組別，由於考題已經歷變化，所以很難比較在不同年份進行的調查的結果。此外，由於要符合不同組別的要求，同樣的考題在不同組別的評分標準並非一致(DES, 1989)，因此如以調查結果來比較不同年齡的學生的成就或有欠公平。另外，一個更根本的問題是課程，教學方法甚至整個社會都不斷改變，所以有需要按時更新考題，但這卻與公平比較跨年級的進展背道而馳 (Gipps, 1988)。

第七，即使各年齡組別都使用相同的評估項目，但此方式有別於追蹤研究，所以並不能用來瞭解學生的真正發展。

第八，正如DES(1989)指出，任何大型測試都難免出現誤差，所謂誤差是指調查結果與真實情況之間的分別。調查的誤差可以與取樣有關或與取樣無關。根據小組的分析，與取樣有關的誤差主要來自學生之間，學校之間，及問題之間的差異，前者包括能力上的差異，課程的影響，語文能力，對考題相關情境的熟悉程度等；而學校的差異則包括學校的課程，教學方法，學習氛圍等方面的差異；考題的差異主要是來自考題的不同難度，研究結果的誤差主要受樣本的數量影響，一般來說，樣本越大，出現的誤差越小。

最後，雖然APU 由始至終強調的是學生的過程技能，但其對學生其他方面的成就表現如概念的理解，及科學態度的忽視卻成為了外界對它批評的原因，尤其是當時的課程甚少強調過程技能。