最近の研究では、医師がAIを参照することと従来のリソースに制限された場合の診断パフォーマンスを比較しました。
- University of Minnesota Medical School、Stanford University、Beth Israel Deaconess Medical Center、University of Virginiaの研究者らが、大規模言語モデル(LLM)であるGPT-4を診断ツールとして使用した効果を分析しました。
- 研究では、GPT-4にアクセスする医師と従来のリソース(UpToDateやGoogleなど)に制限された医師を比較しました。
- 結果は、GPT-4へのアクセスが従来のリソースに制限された医師よりも臨床推論の改善に有意な差がないことを示しました。
- 研究は、AIと医師の協力における改善の機会があることを示唆しています。
- 50人の米国免許医師を対象に、診断推論スコアの中央値は、AIアクセスグループが76%であり、従来リソースのみを参照するグループが74%でした。
- 結論として、GPT-4へのアクセスは医師の診断推論を大幅に向上させなかったが、LLM単体では従来の診断オンラインリソースを使用する医師やプログラムによって支援された医師のパフォーマンスを上回った。
- LLMは、医師グループよりも高いパフォーマンスを示し、医師とAIの協力のフルポテンシャルを発揮するためのトレーニングと開発の必要性を示唆しています。
私の考え:
この研究は、AIが医師の診断推論を大幅に向上させなかったことを示しており、AIと医師の協力にはさらなる研究が必要であると示唆しています。医師とAIの協力において全体のパフォーマンスを最大限に引き出すためには、トレーニングと開発が重要であると考えられます。