- AIの台頭により、AIチャットボットを利用して専門家に相談できる可能性が生まれた。
- 大規模言語モデル(LLMs)は質問に正確に答えることができる可能性がある。
- LLMsの能力を評価するために、AI安全性センターが「Humanity’s Last Exam」と呼ばれる難しい質問を収集している。
- LLMsの限界は、トレーニングデータセットの質、サイズ、包括性によって根本的に制限される。
- LLMsはトレーニングデータ内の単語、フレーズ、文章間の相関関係しかモデル化できず、新しいデータに対応できない。
LLMsが成功や失敗する現代の状況を正確に理解することは重要であり、真の人工知能の到着を測定する方法として、多肢選択問題に基づく試験の作成は失敗に終わる可能性がある。
元記事: https://bigthink.com/starts-with-a-bang/humanitys-last-exam-fail/