- LLMがリリースされると、ユーザーはまず「Strawberryには何個のRがありますか?」や「9.9と9.11のどちらが大きいですか?」などの基本的な質問でテストします。
- GPT-3.5、Claude、Llamaなどの多くのモデルは、これらの質問に間違った回答を出します。
- LLMが単語を処理する際に、個々の文字ではなくトークンとして見るため、特定の文字を分析またはカウントしようとするとエラーが発生する可能性があります。
- LLMは文字を数値の集合として処理し、言葉の意味や異なる状況下での参照について理解していません。
- LLMは文字を直接カウントできないため、単語を分解するか外部ツールを使用して正確に文字を数える必要があります。
LLMはトークンレベルの処理に基づくことが主な理由で、文字構成の理解に苦しんでいるという研究論文があります。LLMは文字レベルの構造を理解することが困難であり、文字組成に理解が必要なタスクでパフォーマンスが低下します。
o1プレビューという最新モデルに同様の推論問題を提出した結果、一部の質問に正しい回答を出しました。しかし、数学の問題には苦労することもあります。
o1モデルは複雑な問題を解決するために思考の連鎖を使用し、人間のような推論を模倣しています。しかし、パラレログラムのすべての可能な角を見つけることができないなど、基本的な数学問題には苦労することもあります。
今後、GPT-5などのモデルが推論をより効率的に処理できるようになると期待されています。