• 研究では、AIツールは医学試験のようなテストではうまく機能するものの、実際の会話に近い状況ではうまく機能しない可能性があることが示された。
  • 大規模言語モデル(LLM)を評価するための提案があり、これらはChatGPTなどのチャットボットに使用される。
  • Harvard Medical SchoolとStanford Universityの研究者らは、4つのLLM(GPT-4やMistralを含む)を評価するためのフレームワーク「CRAFT-MD」を設計した。
  • LLMは患者として振る舞い、会話形式で質問に答えることで、診断の精度を評価した。
  • すべてのLLMは限界を示し、患者から提供された情報に基づいて臨床会話を行う能力において特に制限があるとされた。

研究によると、AIツールはテストでうまく機能するものの、実際の臨床状況では限界がある可能性が示されました。LLMを評価するためのフレームワークが提案され、その結果、LLMは臨床会話において限界があることが明らかになりました。これは、患者情報を収集し、適切な診断を行う能力に影響を与える可能性があります。

元記事: https://www.ahmedabadmirror.com/ai-tools-not-so-intelligent-after-all/81882685.html