要約:

  • 歴史の高度な問題には苦戦するAIが、コーディングやポッドキャスト生成など特定のタスクで優れることが示された。
  • 研究チームが、OpenAIのGPT-4、MetaのLlama、GoogleのGeminiなど3つの大規模言語モデルを歴史の問題にテストする新しいベンチマークHist-LLMを作成。
  • 最良の性能を示したLLMはGPT-4 Turboでしたが、約46%の正解率しか達成できなかった。
  • LLMsは基本的な事実には優れているが、博士レベルのより微妙な歴史的研究にはまだ対応できていない。
  • LLMsは主に顕著な歴史データからの推測に傾向があり、よりマイナーな歴史的知識を取得するのが難しい。
  • 研究者はLLMsが特定の地域(例:サハラ以南のアフリカ)で性能が低い傾向があり、それらの訓練データに偏りがある可能性を示唆。
  • LLMsはまだ人間に代わるものではないが、歴史研究の支援に潜在的な可能性がある。

感想:

LLMsが歴史の高度な質問に苦戦する理由やその限界についての研究は興味深いです。顕著なデータに基づく推測が、よりマイナーな知識の取得を妨げることが示唆されており、訓練データの偏りも問題となっています。LLMsはまだ向上の余地があり、より多様なデータや複雑な問題を取り入れることで、将来的に歴史研究の支援に役立つ可能性があると感じます。


元記事: https://techcrunch.com/2025/01/19/ai-isnt-very-good-at-history-new-paper-finds/