• 最新の大規模言語モデル(LLM)は、質問に答えられないことを認める可能性が低い
  • スペインのUniversitat Politècnica de Valènciaの人工知能(AI)研究者らが、BigScienceのBLOOM、MetaのLlama、OpenAIのGPTをテスト
  • 各モデルに数千の数学、科学、地理の質問をし、回答の質を比較して正しい、不正確、避ける回答に分類
  • 難しい問題での精度は向上したが、新しいモデルは正確に答えられるかどうかについて透明性が低下
  • 以前のモデルは答えが見つからないと言ったり、より多くの情報が必要と述べたが、新しいモデルは簡単な質問に対しても推測し、不正確な回答を出す可能性が高い
  • LLMはAIを使用してデータセットに基づいて理解し、予測し、新しいコンテンツを生成するディープラーニングアルゴリズム
  • 新しいモデルはより複雑な問題をより正確に解決できるが、基本的な質問に答える際にまだいくつかの間違いを com 開きます
  • 「非常に低い難易度レベルでも完全な信頼性は達成されていない」と研究論文に記載
  • OpenAIのGPT-4では、以前のモデルであるGPT-3.5から「回避回答」の数が大幅に低下
  • 研究者は、「より最近のLLMは、運用範囲外の回答をより成功裏に回避する」と述べている期待に合致しないと結論づけた
  • 技術が拡大されても、モデルには「明らかな改善が見られない」と研究者は結論

この研究では、新しい大規模言語モデルがより複雑な問題を解決する際の精度が向上している一方で、基本的な質問に対する回答にはまだ誤りがあることが示されました。最新のモデルは、簡単な質問に対しても不正確な回答をする可能性が高く、以前のモデルほど避ける回答をしなくなっていることが指摘されました。

元記事: https://www.euronews.com/next/2024/10/01/new-ai-models-are-more-likely-to-give-a-wrong-answer-than-admit-they-dont-know