前の画像 次の画像
大規模言語モデル (LLM) は、プログラミングやロボット工学のタスクではますます有用になってきていますが、より複雑な推論問題となると、これらのシステムと人間との間のギャップは大きくなります。人間のように新しい概念を学習する能力がなければ、これらのシステムは優れた抽象化 (本質的には、重要度の低い詳細を省略した複雑な概念の高レベル表現) を形成できず、そのため、より高度なタスクを要求されたときに機能しなくなります。幸いなことに、MIT コンピュータサイエンスおよび人工知能研究所 (CSAIL) の研究者は、自然言語の中に抽象化の宝庫を発見しました。今月開催される国際学習表現会議で発表される 3 つの論文で、このグループは、日常的に使用する言葉が言語モデルにとって豊富なコンテキストの情報源となり、コード合成、AI 計画、ロボットのナビゲーションと操作のためのより包括的な表現の構築に役立つことを示しています。3 つの個別のフレームワークは、それぞれのタスク用に抽象化のライブラリを構築します。LILO (言語観察からのライブラリ誘導) は、コードを合成、圧縮、文書化できます。 Ada (アクションドメイン獲得) は人工知能エージェントの順次意思決定を研究し、LGA (言語誘導抽象化) はロボットが環境をよりよく理解してより実現可能な計画を作成するのに役立ちます。各システムはニューロシンボリック法であり、人間のようなニューラルネットワークとプログラムのような論理コンポーネントを融合したタイプの AI です。LILO: コーディングするニューロシンボリックフレームワーク大規模な言語モデルを使用すると、小規模なコーディングタスクのソリューションをすばやく作成できますが、人間のソフトウェアエンジニアが作成したようなソフトウェアライブラリ全体を設計することはまだできません。ソフトウェア開発機能をさらに進めるには、AI モデルはコードをリファクタリング (削減して結合) して、簡潔で読みやすく再利用可能なプログラムのライブラリにする必要があります。以前開発された MIT 主導の Stitch アルゴリズムなどのリファクタリングツールは抽象化を自動的に識別できるため、ディズニー映画「リロ アンド スティッチ」に敬意を表して、CSAIL の研究者はこれらのアルゴリズムのリファクタリングアプローチを LLM と組み合わせました。彼らのニューロシンボリック手法 LILO は、標準 LLM を使用してコードを記述し、それを Stitch と組み合わせて、ライブラリに包括的に文書化されている抽象化を見つけます。LILO は自然言語に独自に重点を置いているため、コード文字列からすべての母音を識別して削除したり、スノーフレークを描画したりするなど、人間のような常識的な知識を必要とするタスクをシステムが実行できます。どちらの場合も、CSAIL システムはスタンドアロン LLM や、MIT の以前のライブラリ学習アルゴリズム DreamCoder よりも優れたパフォーマンスを発揮し、プロンプト内の単語をより深く理解する能力があることを示しています。これらの有望な結果は、Excel スプレッドシートなどのドキュメントを操作するプログラムの作成、ビジュアルに関する質問への AI の回答の支援、2D グラフィックスの描画などの作業に LILO がどのように役立つかを示しています。
「言語モデルは、自然言語で名前が付けられた関数で動作することを好みます」と、MIT の電気工学およびコンピューター サイエンスの博士課程の学生で、CSAIL 所属であり、この研究の主執筆者である Gabe Grand SM '23 氏は言います。「私たちの研究は、言語モデルのよりわかりやすい抽象化を作成し、それぞれに自然言語の名前とドキュメントを割り当てることで、プログラマーにとってより解釈しやすいコードと、システム パフォーマンスの向上につながります。」
プログラミング タスクのプロンプトが表示されると、LILO はまず LLM を使用して、トレーニングに使用したデータに基づいてソリューションをすばやく提案し、その後、システムはゆっくりと外部ソリューションを徹底的に検索します。次に、Stitch はコード内の共通構造を効率的に識別し、有用な抽象化を抽出します。その後、LILO によってこれらが自動的に名前とドキュメントが作成され、システムがより複雑なタスクを解決するために使用できる簡素化されたプログラムが作成されます。
MIT フレームワークは、1970 年代に MIT で子供にプログラミングを教えるために開発された言語である Logo などのドメイン固有のプログラミング言語でプログラムを作成します。自動化されたリファクタリング アルゴリズムをスケールアップして、Python などのより一般的なプログラミング言語を処理できるようにすることは、今後の研究の焦点となります。それでも、彼らの研究は、言語モデルがますます複雑になるコーディング アクティビティをどのように促進できるかという点で一歩前進を示しています。Ada: 自然言語が AI タスク プランニングをガイドプログラミングと同様に、家庭やコマンド ベースのビデオ ゲームで複数のステップから成るタスクを自動化する AI モデルには抽象化が欠けています。朝食を作っているときに、ルームメイトに温かい卵をテーブルに持ってくるように頼んだと想像してください。ルームメイトは、キッチンでの調理に関する背景知識を直感的に抽象化して一連のアクションにします。対照的に、同様の情報でトレーニングされた LLM は、柔軟なプランを作成するために何が必要かを推論するのに苦労します。有名な数学者で、多くの人が世界初のプログラマーと見なしている Ada Lovelace にちなんで名付けられた CSAIL 主導の「Ada」フレームワークは、仮想キッチンの雑用やゲームに役立つプランのライブラリを開発することで、この問題に前進しています。この手法では、潜在的なタスクとその自然言語記述をトレーニングし、言語モデルがこのデータセットからアクションの抽象化を提案します。人間のオペレーターがスコアを付けて最適なプランをライブラリにフィルタリングし、さまざまなタスクの階層プランに最善のアクションを実装できるようにします。「従来、大規模言語モデルは、抽象化についての推論などの問題のため、より複雑なタスクには苦労してきました」と、MIT の脳科学および認知科学の大学院生で、CSAIL の提携メンバー、LILO の共著者でもある Ada の主任研究者 Lio Wong 氏は言います。「しかし、ソフトウェア エンジニアやロボット工学者が使用するツールを LLM と組み合わせることで、仮想環境での意思決定などの難しい問題を解決できます。」
研究者らが広く使用されている大規模言語モデル GPT-4 を Ada に組み込んだところ、システムはキッチンシミュレーターとミニマインクラフトで、AI 意思決定ベースライン「Code as Policies」よりも多くのタスクを完了しました。Ada は自然言語に隠された背景情報を使用して、冷やしたワインをキャビネットに配置する方法とベッドを作成する方法を理解しました。結果は、それぞれ 59 パーセントと 89 パーセントという驚異的なタスク精度の向上を示しました。この成功により、研究者らは実際の家庭に研究を一般化して、Ada が他の家事の支援やキッチンでの複数のロボットの支援を行えるようにしたいと考えています。現時点では、主な制限は汎用 LLM を使用していることです。そのため、CSAIL チームは、より強力で微調整された言語モデルを適用して、より広範な計画を支援したいと考えています。 Wong 氏と彼女の同僚は、Ada を CSAIL から出たばかりのロボット操作フレームワークである LGA (言語誘導抽象化) と組み合わせることも検討しています。言語誘導抽象化: ロボットタスクの表現 MIT の電気工学およびコンピューターサイエンスの大学院生で CSAIL 所属の Andi Peng SM '23 氏と彼女の共著者は、工場やキッチンなどの複雑な環境における不要な詳細を排除し、機械が人間のように周囲を解釈できるようにする方法を設計しました。LILO や Ada と同様に、LGA は自然言語がどのようにしてより優れた抽象化につながるかという点に新しい焦点を当てています。これらのより構造化されていない環境では、事前の基礎トレーニングがあっても、ロボットには自分に課せられたタスクに関する常識が必要になります。たとえば、ロボットにボウルを渡すように頼むと、機械は周囲の環境でどの機能が重要であるかを大まかに理解する必要があります。そこから、機械は必要なアイテムをどのように提供するかを推論できます。
LGA の場合、人間はまず、事前トレーニング済みの言語モデルに「帽子を持ってきてくれ」などの自然言語を使用した一般的なタスクの説明を提供します。次に、モデルはこの情報を、このタスクを実行するために必要な重要な要素に関する抽象化に変換します。最後に、いくつかのデモンストレーションでトレーニングされた模倣ポリシーがこれらの抽象化を実装し、ロボットが目的のアイテムをつかむようにガイドできます。以前の作業では、ロボットを事前トレーニングするために、人がさまざまな操作タスクについて詳細なメモを取る必要があり、コストがかかる可能性があります。驚くべきことに、LGA は言語モデルをガイドして、人間の注釈者と同様の抽象化をより短時間で生成します。これを説明するために、LGA は、ボストン ダイナミクスの四足ロボット Spot が果物を拾い、飲み物をリサイクル ビンに捨てるのを支援するロボット ポリシーを開発しました。これらの実験は、MIT が開発した方法が世界をスキャンして非構造化環境で効果的な計画を立てる方法を示しており、道路上の自律走行車や工場や厨房で働くロボットをガイドする可能性があります。
「ロボット工学において、ロボットを現実世界で役立たせるためには、データをどれだけ洗練させる必要があるかという真実は、しばしば無視されます」とペン氏は言います。「ロボットにタスクを実行させるトレーニングとして、画像の内容を覚えるだけではなく、コンピューター ビジョンとキャプション モデルを言語と組み合わせて活用したいと考えました。ロボットが見たものからテキスト キャプションを作成することで、言語モデルが本質的にロボットにとって重要な世界知識を構築できることを示しています。」LGA の課題は、一部の動作は言語で説明できないため、特定のタスクが十分に指定されていないことです。環境内の特徴を表現する方法を拡張するために、ペン氏と同僚は、マルチモーダル視覚化インターフェイスを作業に組み込むことを検討しています。その間、LGA は、ロボットが人間に手を貸すときに周囲の環境をよりよく感じ取る方法を提供します。
「ライブラリ学習は人工知能の最も刺激的なフロンティアの1つであり、構成的抽象の発見と推論への道を開く」と、論文には関与していないウィスコンシン大学マディソン校の助教授ロバート・ホーキンス氏は言う。ホーキンス氏は、このテーマを探るこれまでの手法は「大規模に使用するには計算コストが高すぎる」こと、また、生成されるラムダ(多くの言語で新しい関数を記述するために使用されるキーワード)に問題があることを指摘する。「それらは、解釈が難しい関数の大きな山である、不透明な『ラムダサラダ』を生成する傾向がある。これらの最近の論文は、大規模な言語モデルをシンボリック検索、圧縮、および計画アルゴリズムを備えたインタラクティブなループに配置することで、説得力のある前進方法を示している。この研究により、手元のタスクに対して、より解釈可能で適応性の高いライブラリを迅速に取得できる。」自然言語を使用して高品質のコード抽象化のライブラリを構築することにより、3つのニューロシンボリック手法は、将来、言語モデルがより複雑な問題や環境に取り組みやすくなる。プロンプト内の正確なキーワードをより深く理解することで、より人間に近い AI モデルの開発への道が開かれます。各論文の主任著者は MIT CSAIL のメンバーです。LILO と Ada の両方については、脳および認知科学の教授である Joshua Tenenbaum 氏が、LGA については航空宇宙学部長の Julie Shah 氏が、3 つすべてについては電気工学およびコンピューター サイエンスの准教授である Jacob Andreas 氏がそれぞれ執筆しています。その他の MIT の著者は、すべて博士課程の学生です。LILO については Maddy Bowers 氏と Theo X. Olausson 氏、Ada については Jiayuan Mao 氏と Pratyusha Sharma 氏、LGA については Belinda Z. Li 氏が執筆しています。LILO については、ハーベイ マッド カレッジの Muxin Liu 氏が共著者でしたプリンストン大学のイリア・スコルツキー、セオドア・R・サマーズ、トーマス・L・グリフィスがLGAの共著者です。LILOとAdaは、MIT Quest for Intelligence、MIT-IBM Watson AI Lab、Intel、米国空軍科学研究局、米国防高等研究計画局、米国海軍研究局から部分的に支援を受けており、後者のプロジェクトはCenter for Brains, Minds and Machinesからも資金提供を受けています。LGAは、米国国立科学財団、Open Philanthropy、カナダ自然科学・工学研究会議、米国国防総省から資金提供を受けています。
前の項目 次の項目
全文を読む→
全文を読む→
全文を読む→
全文を読む→
全文を読む→
全文を読む→
このウェブサイトは、MIT のコミュニケーション オフィスの一部である MIT ニュース オフィスによって管理されています。
マサチューセッツ工科大学77 Massachusetts Avenue, Cambridge, MA, USA
元記事: https://news.mit.edu/2024/natural-language-boosts-llm-performance-coding-planning-robotics-0501