火. 7月 8th, 2025

AIは歴史があまり得意ではない、と新たな論文が明らかに | TechCrunch

ByManagetech

1月 20, 2025

要約:

歴史の高度な問題には苦戦するAIが、コーディングやポッドキャスト生成など特定のタスクで優れることが示された。
研究チームが、OpenAIのGPT-4、MetaのLlama、GoogleのGeminiなど3つの大規模言語モデルを歴史の問題にテストする新しいベンチマークHist-LLMを作成。
最良の性能を示したLLMはGPT-4 Turboでしたが、約46%の正解率しか達成できなかった。
LLMsは基本的な事実には優れているが、博士レベルのより微妙な歴史的研究にはまだ対応できていない。
LLMsは主に顕著な歴史データからの推測に傾向があり、よりマイナーな歴史的知識を取得するのが難しい。
研究者はLLMsが特定の地域（例：サハラ以南のアフリカ）で性能が低い傾向があり、それらの訓練データに偏りがある可能性を示唆。
LLMsはまだ人間に代わるものではないが、歴史研究の支援に潜在的な可能性がある。

感想:

LLMsが歴史の高度な質問に苦戦する理由やその限界についての研究は興味深いです。顕著なデータに基づく推測が、よりマイナーな知識の取得を妨げることが示唆されており、訓練データの偏りも問題となっています。LLMsはまだ向上の余地があり、より多様なデータや複雑な問題を取り入れることで、将来的に歴史研究の支援に役立つ可能性があると感じます。

元記事: https://techcrunch.com/2025/01/19/ai-isnt-very-good-at-history-new-paper-finds/

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

2月 6, 2025 Managetech

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

2月 6, 2025 Managetech

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

2月 6, 2025 Managetech

You missed

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech