要約:
- Complexity Science Hub(CSH)のチームによる研究によると、人工知能(AI)システムは複雑な歴史的クエリに適切に応答できないことが明らかになった。
- 研究では、OpenAIのGPT-4 Turbo、MetaのLlama、GoogleのGeminiなどの3つの主要な大規模言語モデル(LLM)の精度を評価するために、新しいベンチマークHist-LLMが作成された。
- 結果はNeurIPS AI会議で共有され、最も優れたLLMであるGPT-4 Turboでも正解率は約46%に過ぎなかった。
- LLMは基本的な事実には適しているが、より微妙でPhDレベルの歴史的研究にはまだ対応できていない。
- LLMの制限の1つは、技術的な歴史的質問に失敗することであり、特に顕著な歴史データから推測してしまい、よりマニアックな歴史的知識を取得するのが難しい。
- 研究では、OpenAIやMetaモデルが特定の地域(例:サハラ以南のアフリカ)に関する質問で低いパフォーマンスを示し、トレーニングデータに偏りがある可能性が示唆された。
- CSHの教員であるPeter Turchinは、LLMはまだ一部の分野で人間の代替になり得ないが、将来的に歴史研究での活用には楽観的である。
感想:
この研究は、現在のAIの限界と課題を浮き彫りにしています。LLMは基本的な情報には適していますが、高度な歴史的分析にはまだ不十分であることが示されています。特に、技術的な歴史的質問に対する課題や地域による性能の差など、AIが直面している問題が明らかになりました。将来的には、AIが歴史研究においてより有用になる可能性があるということで、楽観的な見方も示されています。
元記事: https://www.newsbytesapp.com/news/science/ai-systems-cannot-pass-high-level-history-exams/story