セニョール・サルメがQuanta Magazineに寄稿
同じ質問に対して、質問の仕方によって答えが変わる友人がいると想像してください。「ペルーの首都は?」と聞かれると、答えは変わりますが、「ペルーの首都はリマですか?」と聞かれると、答えは変わります。おそらく、友人の精神状態が少し心配になり、友人の答えを信じるのは難しいと感じるでしょう。
これはまさに、ChatGPT やその他の驚異的な人工知能を支える超強力な機械学習ツールである大規模言語モデル (LLM) の多くで起きていることです。自由回答形式の生成的質問では 1 つの回答が得られ、選択肢の中から選択する必要がある識別的質問では異なる回答が得られることがよくあります。「同じ質問が異なる言い回しになると、矛盾が生じます」と、マサチューセッツ工科大学の博士課程の学生、アトゥル・ポール・ジェイコブ氏は言います。
言語モデルの回答の一貫性を高め、モデル全体の信頼性を高めるために、ジェイコブ氏と彼の同僚は、モデルの 2 つのモードが合意できる回答を見つけるように促すゲームを考案しました。コンセンサス ゲームと呼ばれるこの単純な手順では、ゲーム理論のツールを使用して、LLM を自分自身と対戦させ、モデルの精度と内部の一貫性を向上させます。
「こうしたモデル内の自己一貫性を探る研究はこれまで非常に限られていました」とロボット企業フィールドAIの最高科学責任者、シャイエガン・オミドシャフィエイ氏は語る。「この論文は、言語モデルが自分自身と対戦するゲームを作成することで、巧妙かつ体系的な方法でこれに取り組んだ最初の論文の1つです。」
「これは本当にエキサイティングな研究です」と、Google Research の研究科学者 Ahmad Beirami 氏は付け加えた。同氏によると、何十年もの間、言語モデルはプロンプトに対して同じように応答を生成してきた。「このプロセスにゲームを取り入れるという斬新なアイデアで、MIT の研究者たちはまったく異なるパラダイムを導入しました。これは、新しいアプリケーションが次々と登場する可能性があるのです」
ゲームを使ってAIを改良するこの新しい研究は、AIプログラムの成功をゲームの習熟度で測った過去のアプローチとは対照的だ。例えば1997年、IBMのコンピューター「ディープブルー」がチェスのグランドマスター、ガルリ・カスパロフに勝利した。これはいわゆる思考マシンにとって画期的な出来事だった。19年後、グーグル・ディープマインドが開発したプログラム「アルファ碁」が囲碁の元チャンピオン、イ・セドルに5戦中4勝し、人間がもはや優位に立たない別の分野が明らかになった。チェッカーや2人用ポーカー、その他の「ゼロサム」ゲームでもマシンは人間を上回っている。ゼロサムゲームでは、一方のプレイヤーが勝つと、もう一方のプレイヤーは必ず負ける。
AI研究者にとってはるかに大きな課題となったのは、ジョン・F・ケネディやヘンリー・キッシンジャーなどの政治家が好んだ「外交」というゲームだった。このゲームには2人の対戦相手ではなく、動機が読みづらい7人のプレイヤーが登場する。勝つためには、プレイヤーは交渉し、いつでも誰でも破ることができる協力協定を結ばなければならない。外交は非常に複雑であるため、2022年にMetaのグループがAIプログラムCiceroが40ゲームにわたって「人間レベルのプレイ」を開発したときには喜んだ。世界チャンピオンを倒すことはできなかったが、Ciceroは人間の参加者に対して上位10%に入るほどの成績を収めた。
プロジェクト中、Meta チームのメンバーである Jacob は、Cicero が他のプレイヤーとの対話を生成するために言語モデルに依存しているという事実に衝撃を受けました。彼は、未開拓の可能性を感じました。チームの目標は、「このゲームをプレイするために、できる限り最高の言語モデルを構築すること」だったと彼は言います。しかし、代わりに、大規模な言語モデルのパフォーマンスを向上させるために、できる限り最高のゲームを構築することに焦点を当てたらどうなるでしょうか?
2023年、ジェイコブはMITでその疑問を追求し始め、イーカン・シェン、ガブリエル・ファリーナ、そして彼の指導教官ジェイコブ・アンドレアスと協力し、コンセンサスゲームとなるものを開発しました。中心となるアイデアは、2人の会話を協力ゲームとして想像することから生まれました。会話が成功するのは、話し手が伝えようとしていることを聞き手が理解したときです。特に、コンセンサスゲームは、言語モデルの2つのシステム、つまり生成的質問を処理するジェネレーターと、識別的質問を処理するディスクリミネーターを連携させるように設計されています。
数か月の試行錯誤を経て、チームはこの原理を完全なゲームに仕上げました。まず、ジェネレーターが質問を受け取ります。質問は人間から、または既存のリストから取得できます。たとえば、「バラク・オバマはどこで生まれましたか?」という質問です。次にジェネレーターは、ホノルル、シカゴ、ナイロビなど、いくつかの候補の回答を取得します。これらの選択肢も、人間、リスト、または言語モデル自体が実行した検索から取得できます。
しかし、答える前に、公平なコイントスの結果に応じて、ジェネレーターは質問に正しく答えるべきか、それとも間違って答えるべきかも知らされます。
表が出た場合、マシンは正しい答えを出そうとします。ジェネレーターは元の質問と選択した回答を識別器に送信します。識別器がジェネレーターが意図的に正しい回答を送信したと判断した場合、一種のインセンティブとしてそれぞれ 1 ポイントを獲得します。
コインが裏に出た場合、ジェネレーターは間違った答えだと考えるものを送信します。識別器が、意図的に間違った応答が与えられたと判断した場合、両者とも再びポイントを獲得します。ここでの考え方は、同意を促すことです。「犬に芸を教えるようなものです」とジェイコブは説明します。「犬が正しいことをしたら、ご褒美を与えるのです。」
ジェネレータとディスクリミネータも、それぞれいくつかの初期「信念」から始めます。これらは、さまざまな選択肢に関連する確率分布の形をとります。たとえば、ジェネレータは、インターネットから収集した情報に基づいて、オバマがホノルルで生まれた可能性が 80%、シカゴで生まれた可能性が 10%、ナイロビで生まれた可能性が 5%、その他の場所で生まれた可能性が 5% であると信じている場合があります。ディスクリミネータは、異なる分布から開始する場合があります。2 人の「プレーヤー」は、合意に達した場合に報酬を受け取りますが、元の信念から大きく逸脱した場合は減点されます。この配置により、プレーヤーは、インターネットから得た世界に関する知識を回答に取り入れることが奨励され、モデルの精度が向上します。このようなものがなければ、デリーのように完全に間違った答えで合意する可能性があり、それでもポイントを獲得します。
それぞれの質問に対して、2 つのシステムはおよそ 1,000 回のゲームを互いに行います。この多数の反復を通じて、双方は相手の信念を学習し、それに応じて戦略を修正します。
最終的に、ジェネレータとディスクリミネータは、ナッシュ均衡と呼ばれる状態に落ち着き、より一致し始めます。これは、ゲーム理論の中心的な概念と言えるでしょう。これは、ゲームにおける一種のバランス、つまり、どのプレイヤーも戦略を変えても個人的な結果を改善できない点を表します。たとえば、じゃんけんでは、プレイヤーは 3 つのオプションをそれぞれ 3 分の 1 ずつ選択したときに最高の結果を出すことができ、他の戦術では必ず結果が悪くなります。
合意ゲームでは、これはさまざまな形で展開されます。ジェネレータがオバマの出生地として「ホノルル」という単語を送信するたびに、識別器は「正解」と答えるとポイントを獲得できると観察するかもしれません。ジェネレータと識別器は、繰り返しプレイした後、これを続けることで報酬が得られることを学び、どちらも他のことをする動機がなくなります。この合意は、この問題に対するナッシュ均衡の多くの可能な例の 1 つを表しています。MIT グループは、プレーヤーの事前の信念を組み込んだ修正された形式のナッシュ均衡にも依存しており、これによりプレーヤーの応答が現実に根ざしたものになります。
研究者らが観察したところ、このゲームをプレイする言語モデルの精度が高まり、質問の仕方に関係なく同じ答えを出す可能性が高くなるという総合的な効果があった。コンセンサスゲームの効果をテストするため、研究チームは70億から130億のパラメータを持つさまざまな中規模言語モデルで一連の標準的な質問を試した。これらのモデルは、ゲームをプレイしていないモデル、さらには最大5400億のパラメータを持つはるかに大規模なモデルよりも、常に高い正解率を獲得した。ゲームをプレイすることで、モデルの内部一貫性も向上した。
原理的には、どの LLM でもゲームを自分自身と対戦することでメリットを得ることができ、標準的なラップトップで 1,000 ラウンドをこなすのに数ミリ秒しかかかりません。「全体的なアプローチのすばらしい利点は、計算量が非常に少なく、基本言語モデルのトレーニングや変更を必要としないことです」と Omidshafiei 氏は言います。
この最初の成功の後、ジェイコブ氏は現在、ゲーム理論を LLM 研究に取り入れる他の方法を研究している。予備的な結果では、すでに強力な LLM は、任意の数のより小さなモデルを使った別のゲーム (暫定的にアンサンブル ゲームと呼ばれる) を行うことで、さらに改善できることが示されている。主要な LLM には、味方となるより小さなモデルが少なくとも 1 つ、敵役となるより小さなモデルが少なくとも 1 つ含まれる。主要な LLM に米国大統領の名前を答えるように指示すると、味方と同じ答えを選んだときにポイントが得られ、敵と異なる答えを選んだときにもポイントが得られる。テストの結果、はるかに小さなモデルとのこうした相互作用によって LLM のパフォーマンスが向上するだけでなく、追加のトレーニングやパラメーターの変更を行わなくてもパフォーマンスが向上することが示唆されている。
そして、それはほんの始まりに過ぎない。さまざまな状況をゲームとして捉えることができるため、ゲーム理論のツールをさまざまな現実世界の状況に応用できると、グーグル・ディープマインドで研究科学者を務めるイアン・ジェンプ氏は述べた。2024年2月に発表された論文で、同氏と同僚は、単なる質問と回答よりも複雑なやり取りを必要とする交渉シナリオに焦点を当てた。「このプロジェクトの主な目的は、言語モデルをより戦略的なものにすることです」と同氏は述べた。
彼が学術会議で議論した一例は、ジャーナルや会議に受理されるための論文審査プロセスで、特に最初の投稿が厳しい審査を受けた後に行われる。言語モデルがさまざまな応答に確率を割り当てることを考えると、研究者はポーカーゲーム用に設計されたものと同様のゲームツリーを構築でき、利用可能な選択肢とその可能性のある結果を図表化できる。「これを実行したら、ナッシュ均衡を計算し、一連の反論をランク付けできるようになります」とジェンプ氏は述べた。モデルは基本的に、「これは、あなたが返すべきだと私たちが考えるものです」と教えてくれる。
ゲーム理論の洞察の恩恵により、言語モデルは、質問と回答型の問題に限定されるのではなく、さらに高度な対話を処理できるようになります。「今後の大きな成果は、より長い会話に関係しています」とアンドレアス氏は言います。「次のステップは、単なる別の言語モデルではなく、AI が人間と対話することです。」
ジェイコブ氏は、ディープマインド社の研究はコンセンサスゲームやアンサンブルゲームを補完するものだと見ている。「高レベルでは、どちらの手法も言語モデルとゲーム理論を組み合わせています」と同氏は言うが、目標は多少異なる。ジェンプグループは戦略的な意思決定を支援するためにありふれた状況をゲーム形式に落とし込んでいるが、ジェイコブ氏は「私たちはゲーム理論に関する知識を使って、一般的なタスクにおける言語モデルを改善しています」と話す。
現時点では、これらの取り組みは「同じ木の 2 つの枝」、つまり言語モデルの機能を強化する 2 つの異なる方法を表しています、とジェイコブ氏は言います。「私のビジョンは、1 年か 2 年で、これら 2 つの枝が収束することです。」
Quanta Magazineをあなたの受信箱にお届けします
Quanta Magazineをあなたの受信箱にお届けします
最も重要なニュースのハイライトをメールの受信箱に配信します
Quanta Magazine は、情報に基づいた実質的で礼儀正しい会話を促進するためにコメントを管理します。攻撃的、冒涜的、自己宣伝的、誤解を招く、支離滅裂、または話題から外れたコメントは拒否されます。モデレーターは通常の営業時間 (ニューヨーク時間) に常駐しており、英語で書かれたコメントのみ受け付けます。

元記事: https://www.quantamagazine.org/game-theory-can-make-ai-more-correct-and-efficient-20240509/