人工智能在歷史科評改的應用初探

猶記得上年參與教育局舉辦的教師考察團,參觀珠海讀書郎網絡教育有限公司。其展示的智慧校園設備、精準教學平台及校園管理系統,令人深感科技發展之日新月異。其中最令筆者印象深刻的是一部外型普通的座地式「影印機」:教師只需掃描學生課業,系統便自動上傳至人工智能批改軟件,短時間內完成全班評分,並附評語與數據分析報告,供教師調整教學策略,例如生成針對性練習。更甚者,系統可模仿教師「人性化」的批改筆跡,打印發還學生。可謂老師的福音。

 

香港又如何?坊間亦已有不同人工智能批改工具,如LingoTask等。即使是較主觀的作文卷——雖筆者未親身試用—據中、英科教師分享,人工智能在文法與修辭判斷上大致準確(當然仍有誤判)。數學科因評分較客觀,更易對照標準答案得出準確結果。身為歷史科教師,筆者在驚歎科技進步之餘,不禁思考:人工智能能否應用於歷史科?當中機遇與限制何在?算法與專業判斷應如何定位?無奈筆者非專業科技人,姑且以用家的角度與大家討論一二。

 

歷史科評改的特質

 

一般人工智能評改模型需輸入評分準則與學生答案,比對後輸出結果。標準愈清晰、答案範圍愈有限、對錯界線愈明確,準確度便愈高。然而,相較其他學科,歷史科評改主觀特性較強。在文憑試框架下,評卷需審視論證脈絡、史料運用與推論是否合理,絕非「命中要點」即可得分。即使公開試,不同教師評分亦可能有差異。評分準則存在,最終仍依賴專業判斷。近日有教學科技公司邀請學校參與試點,與不同學科老師合作,嘗試建立校本人工智能評改平台,歷史科亦參與其中,不妨借此機會,分享初步的觀察。

 

初步實驗:建立校本人工智能評改平台

 

該公司由研發到有初步成果,約用了三星期的時間。筆者提供了十份中四學生的答題作模型訓練(涵蓋不同能力層次),題目改自二零一六年文憑試卷一第二題(c)題(筆者將該題由七分上調至八分,並改以「程度題」考問)。平台參考的評分準則大致與考評局出版的試題報告相同。先導版評改模型除評分外,亦附評語與評分說明。以下選取三例(見下表),比較人手與模型評改差異,以探討人工智能評改歷史題的可能與目前的限制。

一張含有 文字, 螢幕擷取畫面, 字型, 數字 的圖片

自動產生的描述

 

比較三位學生的評改結果,模型評分整體偏高。模型評語多強調答案結構是否完整、資料運用是否齊備、有否重複內容及是否具正反論證等,顯示模型較重視形式與框架是否齊備。至於推論是否充分、論點是否前後一致、史實是否真正服務於論證等,模型亦有分析,但細緻度未達教師評改準則。以學生C為例,雖然作答表面上同樣包含資料引用與正反分析,但其個人所知部分多為書本文字拼湊,分析薄弱,且段首與結論立場不一。教師因此給予較低評分,然而模型未能有效辨識這些「質」的問題,仍給予七分。換言之,模型較擅長辨識「有沒有」,而未必能準確、細緻地判斷論述質素,並據此調整分數。

 

問題分析與改進策略

 

此落差主要源於兩方面。其一,所輸入的評分準則較為概括。筆者抱着「姑且一試」的心態,僅提供文憑試評改參考指引,內容偏向原則性說明。人工智能模型僅能據有限資訊推斷,自難完全貼合教師標準。若要提高評改準確度,教師需準備更具體的評分指示,明確界定不同分數需具備的要求,例如:「大程度同意需三段正面立論,一段反面論證⋯⋯其中兩段須引用資料,兩段須補充資料以外史實作論據,並具完整論證,方可評為七至八分答案」、「未有引用資料者最高四分」等。再透過教師反覆校準評分結果,逐步調整模型輸出,使其更貼近教師的評分取向。由教師提供經驗與專業判斷,科技團隊則將之轉化為模型訓練的依據,形成一種人機協作的評改模式。這正是學科教師與教育科技公司合作的意義所在。

 

其二,樣本數量有限。本次僅以十份範例測試,難以建立穩定模型。然人工智能模型的優勢在於其可透過反覆訓練與校準,逐步優化。若持續補充不同能力與風格的樣本並再訓練,評分的準確程度相信大可提高。然而,將主觀評分標準轉化為可運算模型本身即具難度,模型或偏好結構工整、內容較規範的答案,對創新或較跳脫的論述容易出現評分偏差(見學生 B與學生C的對比),教師需擔任「把門員」的角色,以確保學生學習效能。但透過提供精細評分準則,擴充多樣的作答樣本,並持續校準,相信可大大減低上述落差。

 

展望未來:當教學專業結合科技

 

是次嘗試中所採用的人工智能評改模型,仍屬「初稿」階段,但筆者對人工智能在促進學與教方面的潛力仍充滿信心。人工智能在快速提供初步評分與錯誤分析方面具明顯優勢,可協助教師處理重複工作、整合常見錯誤、掌握學習趨勢,從而釋放時間專注個別指導、回饋與高層次專業判斷。此前筆者曾嘗試以人工智能建立簡易論述題評改程式,供學生自評,在限定題目下,輸入評分準則與少量範例後,已能提供具參考價值的回饋。若能持續優化,發展出準確、人性化並適用於不同題型的歷史科評改模型指日可待。這也正是此次試點的目標。相信在教學專業與科技持續對話下,歷史科亦能在人工智能的協作中強化學、教、評的有機循環。