AI vs 人間 – 機械はすでに優れているのか?

ByManagetech

11月 2, 2024

人気のあるLLMパフォーマンス測定基準をチェックすると、AIは非常に賢いと感じるかもしれません。
AIは実際に認知的なタスクにおいて平均的な人間よりも優れているのでしょうか？
OpenAIのo1やAnthropicのClaude 3.5 Sonnetなどのフロンティアモデルは、法律、プログラミング、数学などのさまざまな分野で専門家の人間よりも優れたパフォーマンスを発揮します。
LLMはまだ「大規模言語モデル」であり、単純な空間的推論タスクや愚かなトリックの質問を解決できない理由は、実際の「思考」が言及されていないことにある。
AI研究者は、画期的な複雑なテクノロジーを作成する際に、モデルに関連する質問と回答をベンチマーク前に「思い出させる」方法を必ず見つけることができる。
最高のモデルであるOpenAIのo1の結果を見ると、多くの専門分野で平均以上のスコアを獲得していることが示唆される。
しかし、これらの結果は、特定の分野からの関連するトレーニングデータと過去の例に依存している。
AIの本質は、情報の取得以上のものであるべきであり、実際の思考が関与するべきである。
トップのスコアラーは、一般的な人が些細だと考える質問をLLMに与えますが、モデルはまだ答えることができない。
SIMPLEベンチマークでは、トリッキーな問題に対応できるかどうかを評価し、平均的な人間のスコアが83.7％に対し、トップモデルのパフォーマンスは41.7％にとどまる。
公開されていない質問を使用するこの新しいアプローチは、モデルが平均的な人間の推論能力からまだ遠いことを示している。

この記事は、AIの進歩と限界について考えさせられる内容であり、モデルの情報取得能力と実際の思考力の関連性について深く考察されています。人間の推論能力とAIの性能の間にはまだ大きなギャップがあり、AIの真の知能を評価する新しい尺度として注目されるべきです。

元記事: https://hackernoon.com/ai-vs-human-is-the-machine-already-superior

AI vs 人間 – 機械はすでに優れているのか? | HackerNoon

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY