- AIの大規模言語モデル(LLM)は歴史的な質問に対して精度が不十分であることが示された
- 新しいベンチマークHist-LLMが作成され、OpenAIのGPT-4、MetaのLlama、GoogleのGeminiがテストされた
- 最も優れたLLMはGPT-4 Turboだったが、約46%の正解率しか達成できなかった
- LLMは一般的な歴史的データからの推測に優れており、よりマイナーな歴史的知識を取得するのが難しいとされる
- 研究者たちは、LLMが誤答した歴史的な質問のサンプルをTechCrunchと共有
- LLMは技術的な歴史的質問に答えるのが得意でない理由は、一般には目立つ歴史データからの推測をしているためと考えられる
- 研究者はLLMが特定の地域(例:サハラ以南のアフリカ)において性能が低かった傾向を特定し、トレーニングデータにバイアスがある可能性を示唆
- LLMは特定の領域において人間にはまだ代替できないとされる
LLMは歴史的研究に役立つ可能性があり、研究者はベンチマークを改善中であり、より複雑な質問や未代表的な地域のデータを追加している
全体として、LLMの改善が必要な領域を示す一方、これらのモデルが歴史的研究に役立つ潜在能力を強調している
元記事: https://finance.yahoo.com/news/ai-isn-t-very-good-150100608.html