- 研究はJAMA Network Openに掲載され、医学腫瘍学の試験問題における大規模言語モデル(LLMs)の正確さと安全性を評価
- LLMsは医療の革命をもたらす可能性があり、巨大なテキストコーパスでトレーニングされたこれらのモデルは人間らしい回答で質問に答える
- LLMsは広範な医学知識をエンコードし、米国医師免許試験に合格する能力を示しているが、パフォーマンスは医学のサブスペシャリティによって異なる
- 医学腫瘍学の知識が迅速に進化しており、LLMsがその知識を安全かつ信頼性を持って適用できるかどうかを確認するためにさらなる研究が必要
- LLMsの評価は147の試験問題を含み、LLM 2は85.0%の質問に正しく回答し、他のモデルを上回っていたが、最新の証拠を必要とする問題で誤答が増加し、安全上の懸念が浮上
研究はLLMsが医学腫瘍学の知識と推論能力を備え、臨床実践に近づく研修医向けの医学腫瘍学試験スタイルの問題で優れた成績を収めたが、特に最新の出版物に関連する不正確な回答が重大な安全上の懸念を引き起こすことが示唆された。