- USのOpenAIのChatGPT-4oや他6つの大規模言語モデルが、中国の難関大学入試の英語、中国語、数学の試験を受けた
- 言語の試験では比較的良い成績を収めたが、数学では不合格だった
- AlibabaのQwen 2-72Bが最も高得点を獲得し、数学で不合格だった
- AIモデルの数学試験では、主観的な問題に対する回答が論理的でなかった
- AIモデルの数学能力にはまだ改善の余地があると上海AI LabのLin Dahua氏が指摘
- 言語モデルは現代中国語で優れた成績を収めたが、古典中国語に関する知識には大きな差があった
- 英語ではAIモデルは単語制限を超えることで減点される傾向があった
AIモデルの数学能力が不足していることが明らかになった研究結果です。言語面では一定の成果を挙げましたが、数学の分野での課題が浮き彫りになりました。AIモデルの能力向上には、特に数学的論理推論能力の向上が求められています。また、言語においても古典中国語の知識が不足していることが指摘されています。今後は、AIの発展において数学や言語の理解能力の向上が重要であると考えられます。