要約:

  • 3つの人気のある人工知能(AI)システムは、リウマチ専門医の資格試験のような質問に対応できなかった。
  • ChatGPT-4は78%の正解率、Claude 3 Opusは63%、Gemini Advancedは53%の正解率だった。
  • 誤答の多くは幻覚に近く、悪質で根拠不明のものもあり、重大な害をもたらす可能性がある。
  • ユーザーが幻覚を検出するのは難しいため、LLMが説得力のあるが潜在的に有害な回答を提供できることに注意が必要。
  • モデルのパフォーマンスはアメリカリウマチ学会の2022年の質問データベースを使用して評価された。

感想:

この研究から、大規模言語モデルが一部の医療質問に対して正確でないことが明らかになりました。患者や医師は、LLMが信憑性が高いが潜在的に有害な回答を提供する可能性があることを認識すべきです。さらに、研究の限界として、他の情報源に一般化できない可能性や、モデルのアルゴリズムとデータソースの更新により精度が向上する可能性が指摘されています。

元記事: https://www.medpagetoday.com/rheumatology/generalrheumatology/113903