• OpenAIやGoogleなどの企業は、最新の人工知能モデルにおける高度な「推論」能力を大きな進歩として宣伝してきた。
  • 一方、Appleの6人のエンジニアによる新しい研究によると、大規模な言語モデルが示す数学的「推論」は、一般的なベンチマーク問題に対する些細な変更に非常に壊れやすく信頼性が低いことが明らかになった。
  • この研究では、GSM8Kの標準化された8,000以上の小学校レベルの数学問題セットを使用し、新しいGSM-Symbolic評価において一部のテストセットを変更することで、数値や名前を置き換える手法が取られた。
  • 20以上の最先端の大規模言語モデルをGSM-Symbolicでテストした結果、GSM8Kと比較して平均精度が低下し、モデルによっては0.3%から9.2%の性能低下が見られた。
  • 一部のモデルでは、数値を変更すると名前を変更するよりも精度が悪化する傾向がある。

この研究結果は、大規模言語モデルが形式的な推論を行っていないことを示唆しており、小さな変更でも結果に大きな影響を与えることが示されています。これは、AIモデルが訓練データ内で観察された推論手順を模倣しようとしていることを示唆しています。

元記事: https://www.wired.com/story/apple-ai-llm-reasoning-research/