• 人気のあるLLMパフォーマンス測定基準をチェックすると、AIは非常に賢いと感じるかもしれません。
  • AIは実際に認知的なタスクにおいて平均的な人間よりも優れているのでしょうか?
  • OpenAIのo1やAnthropicのClaude 3.5 Sonnetなどのフロンティアモデルは、法律、プログラミング、数学などのさまざまな分野で専門家の人間よりも優れたパフォーマンスを発揮します。
  • LLMはまだ「大規模言語モデル」であり、単純な空間的推論タスクや愚かなトリックの質問を解決できない理由は、実際の「思考」が言及されていないことにある。
  • AI研究者は、画期的な複雑なテクノロジーを作成する際に、モデルに関連する質問と回答をベンチマーク前に「思い出させる」方法を必ず見つけることができる。
  • 最高のモデルであるOpenAIのo1の結果を見ると、多くの専門分野で平均以上のスコアを獲得していることが示唆される。
  • しかし、これらの結果は、特定の分野からの関連するトレーニングデータと過去の例に依存している。
  • AIの本質は、情報の取得以上のものであるべきであり、実際の思考が関与するべきである。
  • トップのスコアラーは、一般的な人が些細だと考える質問をLLMに与えますが、モデルはまだ答えることができない。
  • SIMPLEベンチマークでは、トリッキーな問題に対応できるかどうかを評価し、平均的な人間のスコアが83.7%に対し、トップモデルのパフォーマンスは41.7%にとどまる。
  • 公開されていない質問を使用するこの新しいアプローチは、モデルが平均的な人間の推論能力からまだ遠いことを示している。

この記事は、AIの進歩と限界について考えさせられる内容であり、モデルの情報取得能力と実際の思考力の関連性について深く考察されています。人間の推論能力とAIの性能の間にはまだ大きなギャップがあり、AIの真の知能を評価する新しい尺度として注目されるべきです。

元記事: https://hackernoon.com/ai-vs-human-is-the-machine-already-superior