• 健康ケア設定で使用される大規模言語モデル(LLM)は、実際の患者情報を含まない断片的で一貫性のない方法で評価されている
  • JAMA誌の新しい研究によると、20の評価研究のうちわずか1つが臨床実践の複雑さを反映した実際の患者データを含んでおり、そのほかは主に医学検査の正確さに焦点を当てていた
  • AIプログラムのテストは従来、仮想的な医学的質問に基づいて行われてきたが、これは自動車の道路適合性を多肢選択問題を用いて認証するのと同様であると述べられている
  • Lucy Orr-Ewingらは519の研究を系統的にレビューし、健康ケアにおけるLLMの既存の評価をデータタイプ、健康ケアタスク、自然言語処理(NLP)、自然言語理解(NLU)タスク、評価次元、医学専門分野の5つの要素に分類した
  • 95.4%の研究が評価の主要次元として正確さを使用しており、公平性、偏り、有害性は15.8%でのみ評価されていた
  • 医学の専門分野のうち、約4分の1が一般的な健康ケア応用に関する研究であり、その後に内科、外科、眼科が続いた
  • 研究者は、LLM評価のための具体的な指標や方法がまだ不足していることを指摘している

この記事では、健康ケアにおける大規模言語モデル(LLM)の評価方法について警告されており、実際の患者データの重要性や評価次元の多様性についての課題が示されています。実際の患者ケアデータを使用し、標準化された評価方法の必要性が強調されています。また、今後の健康AIモデルの評価に向けた方針や指標の整備が求められています。

元記事: https://www.insideprecisionmedicine.com/topics/informatics/healthcare-ai-assessment-fragmented-and-inconsistent/