- 過去1年間の人工知能の大きなトレンドの1つは、予測を行う際にさまざまなトリックを使用して予測の精度を劇的に向上させること。
- 例えば、大規模言語モデル(LLM)が答えの論理を一連の文で詳細に説明する「連想チェーン」は、ベンチマークテストでの精度向上につながる。
- 「思考」によって、抽象的な問題解決のテストで精度が向上し、OpenAIのGPTo3がARC-AGIテストで高得点を獲得。
- Google DeepMindの研究者は、旅行計画などの非常に実践的なテストでは、LLMはまだ不十分であることを指摘。
- 新しいアプローチとして、遺伝的に着想を得たアルゴリズムを採用した「心の進化」が提案され、TravelPlannerなどのテストで非常に正確性が高いことが示されている。
自然選択による進化がAIモデルの多数の回答を評価し、適切な解答を生成するように促すことで、問題に対する良い解決策を見つけることは難しいが、悪い解答を排除して再試行することは比較的容易であるというアプローチが重要である。
「心の進化」は、候補解答の品質を評価する方法が重要であり、著者たちは従来の促進戦略に基づいている。
「心の進化」は、他の種類の探索戦略よりも効率的であり、可能な解答を評価する数が増えるほど、徐々に良くなる傾向がある。
「心の進化」は、簡単に良い解答を生成するよりも、悪い解答を排除して再試行する方が容易であることを利用する。
著者の重要な観察は、推論が単に良いプロンプトを作り上げる以上の成果を得る新しい方法を見つけ出す豊かな分野であることである。
著者の作業における重要な欠落は、心の進化の非常に大きな計算予算を削減する方法についてである。複雑なプロンプトを使用する新しいアプローチは、良い解答を得るためのコストを増加させるため、予算に合わせることが重要になる。