• 2022年1月1日から2024年2月19日に発表された519件の研究を対象に、医療のLLMの評価は現在、実患者データを使用したものは5%にとどまる。
  • 評価の次元としては、公平性、バイアス、毒性評価は少なく、精度が主要な評価次元であり、実患者データの使用、偏りの数量化、広範囲のタスクや専門分野のカバー、標準化された性能指標の報告が必要とされる。
  • 研究結果は、現在のLLMの医療分野における評価が断片化され不十分であることを示し、実患者データの使用、バイアスの数量化、幅広いタスクと専門分野のカバー、標準化されたパフォーマンス指標の報告が必要である。

この論文では、LLMの健康ケアへの応用の評価に焦点を当て、現在の評価方法の不十分さを指摘しており、様々な改善点が提案されています。LLMの評価には実患者データの使用が重要であり、公平性やバイアス、毒性などの次元も考慮すべきです。また、医療専門分野やコスト効益分析の重要性も強調されています。

元記事: https://jamanetwork.com/journals/jama/fullarticle/2825147