- AIツールは医学的なテストではうまく機能するが、実際の対話に近い会話ではうまくいかない可能性がある
- 研究は、大規模言語モデル(LLM)の評価のための推奨事項を提案
- Harvard Medical SchoolとStanford Universityの研究者は、4つのLLMを評価するための’CRAFT-MD’フレームワークを設計
- LLMは、患者を演じて会話スタイルで質問に答えるように設定された
- すべてのLLMは制限があり、患者からの情報に基づいて臨床会話を行う能力において特に問題があることが示された
- LLMの性能を評価する際には、適切な質問をする能力と最も重要な情報を抽出する能力を評価すべきである
- AIツールの設計、トレーニング、テストにおいて、実際の医師と患者の対話をより正確に反映する会話形式のオープンエンド質問を使用することが推奨されている
AIツールは医学的なテストでは優れたパフォーマンスを示す一方で、実際の医師との会話には適応できない可能性があることが示されました。これにより、患者情報の収集、診断の適切性などで制限が生じる可能性があります。実際の医療設定におけるLLMの性能を評価する際には、適切な質問をする能力や最も重要な情報を抽出する能力を重視する必要があります。また、AIツールを設計、トレーニング、テストする際には、実際の医師と患者の対話をより正確に模倣するために会話形式のオープンエンド質問を使用することが重要であると指摘されています。
元記事: https://www.theweek.in/wire-updates/national/2025/01/03/lst3-research-ai-interactions.html