大規模言語モデル (LLM) を構築するには膨大な量のデータが必要であることは周知の事実です。従来のトレーニングでは、LLM に大量のテキストが与えられ、各単語が出現する前にそれを推測するように促されます。各予測ごとに、LLM は正しい推測の確率を高めるために小さな調整を行います。最終結果は、何が適切な言語で何がそうでないかについての一定の統計的「理解」を備えたものになります。
しかし、いわゆる「事前トレーニング」を受けただけの LLM はまだ特に有用ではありません。たとえば、記者を元気づけるためのジョークを求められた場合、事前トレーニング済みのモデル GPT-2 は質問を 3 回繰り返すだけでした。アメリカ大統領は誰かと尋ねられた場合、GPT-2 は「答えはノーです。大統領は大統領ではありません」と答えました。明らかに、LLM に人間の望むことを教えるには、それ以上の何かが必要です。
このようなモデルをユーザーの期待に合わせる方法の1つは、人間のフィードバックからの強化学習(RLHF)です。アメリカのスタートアップであるOpenAIは、2022年3月に公開されたプレプリントでこの手法を紹介しました。これは、8か月後にリリースされたChatGPTのレシピの主要な要素でした。
RLHF は通常、3 つのステップで構成されます。まず、人間のボランティアは、与えられたプロンプトに最も適した 2 つの LLM 応答のうちのどちらを選択するか尋ねられます。これを何千回も繰り返します。次に、このデータ セットを使用して、事実上人間の代わりとなる 2 番目の LLM をトレーニングします。このいわゆる報酬モデルは、人間が望む応答に高いスコアを割り当て、それ以外の応答には低いスコアを割り当てるように設計されており、元の LLM をトレーニングするために使用されます。最後の仕上げとして、強化学習と呼ばれる機械学習技術を使用して、元の LLM のノブとレバーを微調整し、報酬を獲得する動作を強化します。
RLHF をこのように行うのは非常に複雑です。2 つの別々の LLM を使用するには時間と費用がかかり、強化学習に使用されるアルゴリズムは、スタンフォード大学の Rafael Rafailov 氏の言葉を借りれば「非常に面倒」です。つまり、OpenAI、Google、およびそのライバル以外では、誰もその潜在能力を実際にフルに活用できていないということです。
今では、ほんのわずかな労力で同じ結果を達成できることが判明しています。ラファイロフ博士と、アーチト・シャルマ、エリック・ミッチェルを含む彼の同僚は、2023年12月にAIカンファレンスであるNeurIPSでこの代替案を発表しました。彼らの方法である直接選好最適化(DPO)は、満足のいく数学的なトリックに依存しています。
このトリックは、あらゆる報酬モデルには満点を取れる特定の理論上の LLM があり、あらゆる LLM にも同様に優れた理論上の報酬モデルがあるという観察に基づいています (より平凡に言えば、あらゆるズボンにはぴったり合う理論上の人物がいて、あらゆる人物には最もフィットする理論上のズボンがあるのと同じです)。各 LLM には暗黙の報酬モデルが隠れているというこの観察により、研究者はこのモデルを直接いじることができました。以前の体制では、LLM は報酬モデルから学習し、報酬モデルはデータから学習しました。現在、LLM はデータから直接学習できます。
著者らによると、仲介者を排除することで、DPOはRLHFより3~6倍効率が良くなり、テキスト要約などのタスクでより優れたパフォーマンスを発揮できるという。使いやすさのおかげで、中小企業でもすでにアライメントの問題に取り組むことができるようになっているとシャーマ博士は言う。1年前は、GoogleのGeminiやOpenAIのGPT-4など、世界をリードする少数のモデルだけがRLHFを使用できる余裕があった。しかし、3月12日時点で、業界リーダーボードで上位10位のLLMのうち8つがDPOを使用している。OpenAIに対抗しようとしているフランスの新興企業MistralはDPOを使用している。ソーシャルメディア大手のMetaは、自社開発のLLMにDPOを統合している。
さらなる改善が確実に行われるだろう。まず、大手 AI 研究所は 2022 年に詳細の公開を停止して以来、独自のアルゴリズムを改良してきたというのがコンセンサス見解だ。しかし、LLM に人間が望み期待することを実行させるという問題は、まだ解決にはほど遠い。結局のところ、他の人間でさえも時々苦労するのだ。
The Economist より、ライセンスに基づいて公開。元のコンテンツは www.economist.com でご覧いただけます。
マイルストーンアラート!Livemint は世界で最も急成長しているニュース ウェブサイトとしてチャートのトップに躍り出ました 🌏 詳細についてはここをクリックしてください。
メリットの世界を解き放ちましょう! 洞察力に富んだニュースレターからリアルタイムの株価追跡、最新ニュース、パーソナライズされたニュースフィードまで、すべてがここにあります。クリックするだけです! 今すぐログイン!
Mintアプリをダウンロードしてプレミアム記事を読んでください
ブックマークを保存するには、当社の Web サイトにログインしてください。少し時間がかかります。
ウォッチリストの作成まであと一歩です!
おっと!画像のブックマーク数の制限を超えたようです。この画像をブックマークするには、いくつか削除してください。
セッションの有効期限が切れました。再度ログインしてください。
これで、当社のニュースレターの購読が完了しました。当社からのメールが見つからない場合は、スパム フォルダーを確認してください。
これは購読者限定の機能です。今すぐ購読して、WhatsAppで毎日更新情報を入手してください。
株式、投資信託、IPOなどへの投資を始めましょう
私はトレーディングおよびデマット口座の開設に興味があり、オンラインでの口座開設手続きに慣れています。電話、電子メール、SMS など、さまざまなチャネルを通じてプロモーション メッセージを受け取ることに同意します。
株式、投資信託、IPOなどへの投資を始めましょう
私はトレーディングおよびデマット口座の開設に興味があり、オンラインでの口座開設手続きに慣れています。電話、電子メール、SMS など、さまざまなチャネルを通じてプロモーション メッセージを受け取ることに同意します。
すぐにご連絡させていただきます