- 新しい大規模言語モデル(LLM)のベンチマークは、最新のモデルでも最高のチェスプレイヤーではないことを示している。
- LLM Chess Puzzlesは、ソフトウェアエンジニアのVladimir Prelovacによって作成され、1,000のチェスパズルを与えてLLMをテストする。
- チェスパズルは、チェスボードの状態が特定の方法で設定された論理問題であり、チェスの機械の理解と論理的推論のテストとなる。
- ベンチマークの結果は、多くの人気のあるLLM(GPT-4o、Anthropic、Mistralなど)のパフォーマンスデータを示し、多くのモデルが低いEloレーティングを達成した。
- GPT-4およびGPT-4 Turbo Previewモデルは他のモデルよりも優れた成績を収め、GPT-4oは専門家レベルよりもやや下のElo 1,790を達成。
私の考え:
LLMは特定のタスクをこなすことはできますが、広範な、適応可能な理解や問題解決能力をまだ示していません。チェスのような複雑なゲームにおいて、LLMの違法な手を出すことがあることは驚きです。これらのモデルはまだ、人間の知能や推論と同等のものを持っていないようです。
元記事: https://www.theregister.com/2024/06/04/chess_puzzle_benchmark_llm/