- 健康ケアの設定で使用される大規模言語モデル(LLM)は、実際の患者情報を含まない断片的で一貫性のない方法で評価されている
- JAMA誌の新しい研究によると、20の評価研究のうちわずか1つが臨床実践の複雑さを反映した実際の患者データを含んでいた
- ほとんどの研究は、医学試験の回答の正確性に焦点を当て、公平性、バイアス、有毒性、展開などの考慮事項には限られた注意が払われた
- 研究者は、AIプログラムを仮想的な医療質問にテストすることは、選択式のアンケートを使用して車両の道路適合性を認定することに例えられると述べた
- Lucy Orr-Ewingらは、519の研究をシステマティックにレビューし、健康ケアにおけるLLMの既存の評価を5つの要素に分類した
- 評価された最も一般的な健康ケアタスクは、医学的知識、診断などであった
- ほとんどの研究(95.4%)が評価の主要次元として正確性を使用していた
- 医療専門分野の中で、およそ4分の1の研究が一般的な医療アプリケーションに割り当てられ、それに続いて内科、外科、眼科が続いた
- 研究者は、LLMの評価のための具体的なメトリクスや方法がまだ不足していると指摘した
- Coalition for Health AIは、健康ケアのLLM向けのメトリクスと方法を確立するための取り組みを行っており、AIモデルに対する保証標準ガイドの共通の枠組みを作成することを目指している
この記事は、健康ケアで使用される大規模言語モデルの評価において、実際の患者データの必要性や評価次元の多様性に焦点が当てられています。研究者は、臨床状況との整合性を確保するために、評価に実際の患者ケアデータを組み込む必要性を強調しています。今後は、標準化されたタスク定義と評価次元のためのコンセンサスベースのフレームワークが重要であると述べられています。