要約:
- 大規模言語モデルは50個の同時タスクをこなし、コストを17倍削減できるが、追加タスクは性能低下を引き起こす可能性あり。
- ニューヨークのマウントサイナイ医学部の研究者らは、300,000以上の実験を行い、LLMの性能を試験した。
- 研究では、2023年にマウントサイナイ保健システムでの1,942,216の患者エンカウンターからのデータを使用。
- MetaのLlama-3–70bやOpenAIのGPT-4-turbo-128kなど10のLLMを評価し、これらがEHRデータからの需要増加にどのように対処するかを調査。
- これら2つのLLMは、医薬品安全性のレビューや研究コホートの構築などの50の臨床タスクを扱うことができたが、他のモデルはより少ないタスクが必要とされた。
- 「GPT-4-turbo-128kによる50タスクでのコスト削減は、連結戦略により約17倍になった」と研究者らは結論づけた。
感想:
この研究は、大規模言語モデルの性能とコスト削減に関する重要な洞察を提供しています。LLMが多様な臨床タスクに対処できる可能性がある一方で、タスクの増加が性能に影響を与える可能性があることが示唆されています。特に、医療システムの規模において、コスト削減の効果が顕著になることが示されています。