月. 7月 7th, 2025

ヘルスケア AI 評価は「断片的で一貫性がない」 | Inside Precision Medicine

ByManagetech

10月 16, 2024

健康ケア設定で使用される大規模言語モデル（LLM）は、実際の患者情報を含まない断片的で一貫性のない方法で評価されている
JAMA誌の新しい研究によると、20の評価研究のうちわずか1つが臨床実践の複雑さを反映した実際の患者データを含んでおり、そのほかは主に医学検査の正確さに焦点を当てていた
AIプログラムのテストは従来、仮想的な医学的質問に基づいて行われてきたが、これは自動車の道路適合性を多肢選択問題を用いて認証するのと同様であると述べられている
Lucy Orr-Ewingらは519の研究を系統的にレビューし、健康ケアにおけるLLMの既存の評価をデータタイプ、健康ケアタスク、自然言語処理（NLP）、自然言語理解（NLU）タスク、評価次元、医学専門分野の5つの要素に分類した
95.4％の研究が評価の主要次元として正確さを使用しており、公平性、偏り、有害性は15.8％でのみ評価されていた
医学の専門分野のうち、約4分の1が一般的な健康ケア応用に関する研究であり、その後に内科、外科、眼科が続いた
研究者は、LLM評価のための具体的な指標や方法がまだ不足していることを指摘している

この記事では、健康ケアにおける大規模言語モデル（LLM）の評価方法について警告されており、実際の患者データの重要性や評価次元の多様性についての課題が示されています。実際の患者ケアデータを使用し、標準化された評価方法の必要性が強調されています。また、今後の健康AIモデルの評価に向けた方針や指標の整備が求められています。

元記事: https://www.insideprecisionmedicine.com/topics/informatics/healthcare-ai-assessment-fragmented-and-inconsistent/

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

2月 6, 2025 Managetech

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

2月 6, 2025 Managetech

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

2月 6, 2025 Managetech

You missed

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech