AI のチェスの腕前は、ある意味では残念だが、ある意味では有望である • The Register

6月 5, 2024

新しい大規模言語モデル（LLM）のベンチマークは、最新のモデルでも最高のチェスプレイヤーではないことを示している。
LLM Chess Puzzlesは、ソフトウェアエンジニアのVladimir Prelovacによって作成され、1,000のチェスパズルを与えてLLMをテストする。
チェスパズルは、チェスボードの状態が特定の方法で設定された論理問題であり、チェスの機械の理解と論理的推論のテストとなる。
ベンチマークの結果は、多くの人気のあるLLM（GPT-4o、Anthropic、Mistralなど）のパフォーマンスデータを示し、多くのモデルが低いEloレーティングを達成した。
GPT-4およびGPT-4 Turbo Previewモデルは他のモデルよりも優れた成績を収め、GPT-4oは専門家レベルよりもやや下のElo 1,790を達成。

私の考え：

LLMは特定のタスクをこなすことはできますが、広範な、適応可能な理解や問題解決能力をまだ示していません。チェスのような複雑なゲームにおいて、LLMの違法な手を出すことがあることは驚きです。これらのモデルはまだ、人間の知能や推論と同等のものを持っていないようです。