人工智能在歷史科評改的應用初探

猶記得上年參與教育局舉辦的教師考察團，參觀珠海讀書郎網絡教育有限公司。其展示的智慧校園設備、精準教學平台及校園管理系統，令人深感科技發展之日新月異。其中最令筆者印象深刻的是一部外型普通的座地式「影印機」：教師只需掃描學生課業，系統便自動上傳至人工智能批改軟件，短時間內完成全班評分，並附評語與數據分析報告，供教師調整教學策略，例如生成針對性練習。更甚者，系統可模仿教師「人性化」的批改筆跡，打印發還學生。可謂老師的福音。

香港又如何？坊間亦已有不同人工智能批改工具，如LingoTask等。即使是較主觀的作文卷——雖筆者未親身試用—據中、英科教師分享，人工智能在文法與修辭判斷上大致準確（當然仍有誤判）。數學科因評分較客觀，更易對照標準答案得出準確結果。身為歷史科教師，筆者在驚歎科技進步之餘，不禁思考：人工智能能否應用於歷史科？當中機遇與限制何在？算法與專業判斷應如何定位？無奈筆者非專業科技人，姑且以用家的角度與大家討論一二。

歷史科評改的特質

一般人工智能評改模型需輸入評分準則與學生答案，比對後輸出結果。標準愈清晰、答案範圍愈有限、對錯界線愈明確，準確度便愈高。然而，相較其他學科，歷史科評改主觀特性較強。在文憑試框架下，評卷需審視論證脈絡、史料運用與推論是否合理，絕非「命中要點」即可得分。即使公開試，不同教師評分亦可能有差異。評分準則存在，最終仍依賴專業判斷。近日有教學科技公司邀請學校參與試點，與不同學科老師合作，嘗試建立校本人工智能評改平台，歷史科亦參與其中，不妨借此機會，分享初步的觀察。

初步實驗：建立校本人工智能評改平台

該公司由研發到有初步成果，約用了三星期的時間。筆者提供了十份中四學生的答題作模型訓練（涵蓋不同能力層次），題目改自二零一六年文憑試卷一第二題（c）題（筆者將該題由七分上調至八分，並改以「程度題」考問）。平台參考的評分準則大致與考評局出版的試題報告相同。先導版評改模型除評分外，亦附評語與評分說明。以下選取三例（見下表），比較人手與模型評改差異，以探討人工智能評改歷史題的可能與目前的限制。

一張含有文字, 螢幕擷取畫面, 字型, 數字的圖片

自動產生的描述

比較三位學生的評改結果，模型評分整體偏高。模型評語多強調答案結構是否完整、資料運用是否齊備、有否重複內容及是否具正反論證等，顯示模型較重視形式與框架是否齊備。至於推論是否充分、論點是否前後一致、史實是否真正服務於論證等，模型亦有分析，但細緻度未達教師評改準則。以學生C為例，雖然作答表面上同樣包含資料引用與正反分析，但其個人所知部分多為書本文字拼湊，分析薄弱，且段首與結論立場不一。教師因此給予較低評分，然而模型未能有效辨識這些「質」的問題，仍給予七分。換言之，模型較擅長辨識「有沒有」，而未必能準確、細緻地判斷論述質素，並據此調整分數。

問題分析與改進策略

此落差主要源於兩方面。其一，所輸入的評分準則較為概括。筆者抱着「姑且一試」的心態，僅提供文憑試評改參考指引，內容偏向原則性說明。人工智能模型僅能據有限資訊推斷，自難完全貼合教師標準。若要提高評改準確度，教師需準備更具體的評分指示，明確界定不同分數需具備的要求，例如：「大程度同意需三段正面立論，一段反面論證⋯⋯其中兩段須引用資料，兩段須補充資料以外史實作論據，並具完整論證，方可評為七至八分答案」、「未有引用資料者最高四分」等。再透過教師反覆校準評分結果，逐步調整模型輸出，使其更貼近教師的評分取向。由教師提供經驗與專業判斷，科技團隊則將之轉化為模型訓練的依據，形成一種人機協作的評改模式。這正是學科教師與教育科技公司合作的意義所在。

其二，樣本數量有限。本次僅以十份範例測試，難以建立穩定模型。然人工智能模型的優勢在於其可透過反覆訓練與校準，逐步優化。若持續補充不同能力與風格的樣本並再訓練，評分的準確程度相信大可提高。然而，將主觀評分標準轉化為可運算模型本身即具難度，模型或偏好結構工整、內容較規範的答案，對創新或較跳脫的論述容易出現評分偏差（見學生 B與學生C的對比），教師需擔任「把門員」的角色，以確保學生學習效能。但透過提供精細評分準則，擴充多樣的作答樣本，並持續校準，相信可大大減低上述落差。

展望未來：當教學專業結合科技

是次嘗試中所採用的人工智能評改模型，仍屬「初稿」階段，但筆者對人工智能在促進學與教方面的潛力仍充滿信心。人工智能在快速提供初步評分與錯誤分析方面具明顯優勢，可協助教師處理重複工作、整合常見錯誤、掌握學習趨勢，從而釋放時間專注個別指導、回饋與高層次專業判斷。此前筆者曾嘗試以人工智能建立簡易論述題評改程式，供學生自評，在限定題目下，輸入評分準則與少量範例後，已能提供具參考價值的回饋。若能持續優化，發展出準確、人性化並適用於不同題型的歷史科評改模型指日可待。這也正是此次試點的目標。相信在教學專業與科技持續對話下，歷史科亦能在人工智能的協作中強化學、教、評的有機循環。