このラウンドでは、人間が 1、AI LLM が 0 – MedCity News

7月 23, 2024

AnthropicのClaude3-OpusはGPT-4よりも優れたパフォーマンスを発揮したが、いずれも客観的医学知識のテストでは人間に及ばなかった。
6人の人間、OpenAIのGPT-4、AnthropicのClaude3-Opusを比較した新しい研究では、人間の方が医学的な質問に最も正確に答えることが分かった。
両方のLLMはおおよそ3分の1の質問に誤答したが、GPT-4はClaude3-Opusよりも性能が悪かった。
医療の技術リソースを活用して、効率的になりつつも患者ケアやスタッフサポートを見失わないようにする必要がある。
GPT-4は数値ベースの質問の約半数を誤回答した。
KahunのCEOは、一般的なLLMはまだ医療専門家と同等に医学的な質問を解釈・分析できないことを示していると述べた。

考察: 医療分野において、AIの性能向上は重要ですが、現時点では人間の医療専門家には及ばないことが示されました。LLMは確認済みかつ特定のドメインに特化した情報源を組み込む必要があります。医療AIの進化において透明性とエビデンスの提供が重要であり、今後の研究やソリューション提供が期待されます。