- 人工知能はコーディングやポッドキャスト生成などのタスクに優れているが、高度な歴史の質問に正確に答えることに苦労している
- 研究者は、OpenAIのGPT-4、MetaのLlama、GoogleのGeminiをHist-LLMという新しく開発されたベンチマークを使用してテストした
- 研究は、Seshat Global History Databankに依存するベンチマークを使用し、歴史的知識の包括的なデータベースを利用している
- NeurIPS AI会議で発表された研究では、TechCrunchによると、失望すべき結果が見つかった
- LLMsは、基本的な事実には優れているが、高度な歴史の問い合わせには不十分であると言われている
- 研究者は、LLMsがしばしば顕著な歴史データから外挿するが、より曖昧な詳細には苦労していることを発見した
- 潜在的な偏りも懸念されており、特定の地域に関する質問に対する回答が悪化している
- 研究者は、Hist-LLMベンチマークをさらに改良する予定であり、より多様なデータソースを取り入れ、質問の複雑さを増していく予定
この記事からは、人工知能が歴史に関する高度な質問に対してはまだ限界があり、特に偏りや情報の欠落が課題であることがわかります。研究者らはAIが将来的に歴史家を支援できる可能性に期待を寄せていますが、複雑な歴史の解釈や学術的な正確性において人間の歴史家が不可欠であることが示されています。
元記事: https://nypost.com/2025/01/20/business/ai-still-cant-answer-questions-about-history-study/