生成式 AI 在日本頂尖大學入學考試中的表現
導言
AI 創業公司 LifePrompt Inc. 於 4 月 27 日報告指,OpenAI 的 ChatGPT 5.2 Thinking 模型在 2026 年東京大學(University of Tokyo)及京都大學(Kyoto University)的入學考試中,所得分數超過了排名最高的人類考生。
正文
評估方法將試題轉換為圖像數據供 AI 模型分析。為確保對論文式回答的評分準確,評分工作由 Kawai Juku 補習學校的教育工作者執行。在東京大學的測試中,該模型在自然科學 III 醫科組別中獲得 550 分中的 503 分,比最高人類得分 453 分高出 50 分,並在數學科獲得滿分。在人文及社會科學考試中,AI 獲得 550 分中的 452 分,超過最高錄取申請者的 434 分。同樣在京都大學,該模型在法學部錄得 771 分(超過最高分 734 分),而在醫學部則錄得 1,176 分(超過最高分 1,098 分)。 儘管結果顯著,但 AI 在不同科目類型的表現存在分歧。雖然該模型在英語科的準確率達到 90%,但在世界歷史的論文題目中,準確率僅限於 25%。這些結果代表模型能力有顯著進步;LifePrompt 在 2024 年測試的先前版本(ChatGPT 4)未能達到最低合格要求,而 2025 年的模型(o1)則首次成功跨越合格門檻。 持分者對這些結果的看法在人類認知與機構評估的影響方面出現分歧。LifePrompt 負責人遠藤聰(Satoshi Endo)認為,AI 發展的速度使得企業營運在未來二十年內必須進行長期的戰略轉型。相反,日本人工智能學會(Japanese Society for Artificial Intelligence)會長兼慶應義塾大學(Keio University)教授栗原聰(Satoshi Kurihara)指出,由於 AI 具有海量數據吸收能力,將人類與 AI 的表現進行比較在根本上存在缺陷。栗原教授將 AI 的效率比作計算機,並認為這一趨勢使得入學考試必須重新評估,不應優先考慮計算與知識記憶,而應重視原創價值的創造。
結論
目前情況表明,雖然生成式 AI 在標準化的定量及知識型測試中已超越人類表現,但在特定的定性論文領域仍存在局限性。