要約:
- 新しい論文によると、AIはコーディングやポッドキャスト生成など特定のタスクに優れていますが、高度な歴史の試験には苦戦しています。
- 研究チームが新しいベンチマーク「Hist-LLM」を作成し、OpenAIのGPT-4、MetaのLlama、GoogleのGeminiなどの3つの主要な大規模言語モデルを歴史の質問にテストしました。
- 結果はNeurIPSで発表され、最も性能が良かったLLMはGPT-4 Turboであり、約46%の正確性を達成しましたが、ランダムな推測よりもわずかに優れた結果でした。
- LLMは基本的な事実には優れていますが、より微妙で博士レベルの歴史的探求にはまだ対応できていません。
- 研究者は、LLMが間違えた歴史的質問のサンプルを共有し、LLMはよりマイナーな歴史的知識を取得することが難しいと指摘しています。
- LLMは特定の地域(例: サハラ以南のアフリカ)において性能が悪い傾向があり、トレーニングデータに偏りがある可能性が示唆されています。
- 研究は、LLMが人間に代わる代替手段としてはまだ不十分であることを示していますが、将来的に歴史家を支援する可能性を示唆しています。
感想:
この研究は、AIの発展において歴史のような高度な分野においてもまだ課題があることを示しています。LLMは基本的な事実には強いですが、微妙な歴史的問い合わせには対応できていないことが明らかになりました。また、トレーニングデータの偏りや特定地域における性能の差異も指摘されており、今後の改善が期待されます。
元記事: https://techcrunch.com/2025/01/19/ai-isnt-very-good-at-history-new-paper-finds/