要約:

  • 大規模言語モデル(LLMs)の中で、ChatGPT-4がGemini AdvancedやClaude 3 Opusよりも高い精度と品質を示す。
  • 3つのモデルすべてが誤った回答の70%以上が潜在的に有害であることが判明。
  • 研究者は、ChatGPT-4が現在のリウマチ学においてより正確かつ信頼性の高いLLMであると結論付けた。
  • 研究はJaime Flores-Gouyonnet率いるメイヨー・クリニックによって行われ、2025年1月22日にThe Lancet Rheumatologyでオンライン公開された。
  • 研究が単一の質問銀行からの質問を使用しているため、他の情報源や現実の臨床シナリオへの一般化が制限される可能性がある。
  • LLMsの評価フレームワークは、生成的人工知能のためのツールから適応されたものであり、LLMsの評価に特に検証されたものではない。
  • 著者の1人はリウマチ学研究財団の研究者賞、ループス研究連合のループス研究賞、疾病予防管理センター、メイヨー・クリニックの支援を受けている。

感想:

LLMの性能差は時間とともに変化する可能性があるため、LLMの安全な臨床応用のためには継続的な評価が不可欠であるという点は重要だと感じます。また、AIを含む複数の編集ツールを使用して作成されたこの記事は、人間の編集者によってレビューされたことから、AIと人間の連携が重要であることも示唆されています。


元記事: https://www.medscape.com/viewarticle/artificial-intelligence-large-language-models-not-so-great-2025a10001xj