次世代AIエージェントの開発、新しいモダリティの探求、基礎学習の先駆者
来週、世界中の AI 研究者が、オーストリアのウィーンで 5 月 7 日から 11 日まで開催される第 12 回国際学習表現会議 (ICLR) に集まります。
Google DeepMind の研究担当副社長である Raia Hadsell 氏が基調講演を行い、この分野における過去 20 年間を振り返り、学んだ教訓が人類の利益のために AI の未来をどのように形作っているかを強調します。
また、ロボティクストランスフォーマーの開発からツールキットや Gemma のようなオープンソースモデルの作成まで、基礎研究をどのように現実のものにするかを紹介するライブデモンストレーションも提供します。
Google DeepMind のさまざまなチームが今年、70 件以上の論文を発表します。研究のハイライトをいくつかご紹介します。
大規模言語モデル (LLM) はすでに高度な AI ツールに革命をもたらしていますが、その潜在能力はまだ十分に発揮されていません。たとえば、効果的なアクションを実行できる LLM ベースの AI エージェントは、デジタル アシスタントをより便利で直感的な AI ツールに変えることができます。
自然言語の指示に従って、人に代わって Web ベースのタスクを実行する AI アシスタントがあれば、時間を大幅に節約できます。口頭発表では、自己経験から学習して現実世界の Web サイトで複雑なタスクを操作および管理する LLM 駆動型エージェントである WebAgent を紹介します。
LLM の一般的な有用性をさらに高めるために、私たちは LLM の問題解決能力を高めることに重点を置きました。LLM ベースのシステムに従来の人間的なアプローチ、つまり「ツール」の作成と使用を装備することで、これをどのように達成したかを示します。また、言語モデルがより一貫して社会的に受け入れられる出力を生成することを保証するトレーニング手法も紹介します。私たちのアプローチでは、社会の価値観を表すサンドボックス リハーサル スペースを使用します。
当社の Dynamic Scene Transformer (DyST) モデルは、現実世界の単一カメラ ビデオを活用して、シーン内のオブジェクトとその動きの 3D 表現を抽出します。
最近まで、大規模な AI モデルは主にテキストと画像に焦点を当て、大規模なパターン認識とデータ解釈の基礎を築いてきました。現在、この分野はこうした静的な領域を超えて、現実世界の視覚環境のダイナミクスを取り入れる方向に進んでいます。コンピューティングが全面的に進歩するにつれ、その基盤となるコードが最大限の効率で生成され、最適化されることがますます重要になっています。
フラットスクリーンでビデオを見ると、シーンの 3 次元的な性質を直感的に把握できます。しかし、機械は、明示的な監督なしにこの能力をエミュレートするのは困難です。私たちは、現実世界の単一カメラ ビデオを活用してシーン内のオブジェクトとその動きの 3D 表現を抽出する Dynamic Scene Transformer (DyST) モデルを紹介します。さらに、DyST では、ユーザーがカメラの角度やコンテンツを制御して、同じビデオの新しいバージョンを生成することもできます。
人間の認知戦略をエミュレートすることで、AI コード ジェネレーターも向上します。プログラマーが複雑なコードを書く場合、通常はタスクをより単純なサブタスクに「分解」します。ExeDec では、分解アプローチを利用して AI システムのプログラミングと一般化のパフォーマンスを向上させる、新しいコード生成アプローチを導入しています。
並行してスポットライトを当てた論文では、コードを生成するだけでなく最適化するための機械学習の斬新な使用法を探求し、コード パフォーマンスの堅牢なベンチマークのためのデータセットを紹介します。コードの最適化は困難で、複雑な推論が必要ですが、私たちのデータセットにより、さまざまな ML 手法の探求が可能になります。結果として得られる学習戦略は、人間が作成したコード最適化よりも優れていることを実証します。
ExeDecは、分解アプローチを活用してAIシステムのプログラミングと一般化のパフォーマンスを向上させる新しいコード生成アプローチを導入します。
私たちの研究チームは、機械認知の本質の探求から高度な AI モデルの一般化の理解に至るまで、AI の大きな疑問に取り組みながら、主要な理論的課題の克服にも取り組んでいます。
人間と機械の両方にとって、因果推論とイベントを予測する能力は密接に関連した概念です。スポットライト プレゼンテーションでは、強化学習が予測ベースのトレーニング目標によってどのように影響を受けるかを探り、予測にも関連する脳活動の変化との類似点を示します。
AI エージェントが新しいシナリオにうまく一般化できるのは、人間と同様に、その世界の根底にある因果モデルを学習したからでしょうか。これは高度な AI における重要な問題です。口頭発表では、そのようなモデルが実際にトレーニング データを生み出すプロセスの近似的な因果モデルを学習したことを明らかにし、その深い意味について議論します。
AI におけるもう 1 つの重要な問題は信頼です。これは、モデルが出力の不確実性をどれだけ正確に推定できるかに部分的に依存します。これは、信頼できる意思決定にとって重要な要素です。私たちは、シンプルで基本的にコストがかからない方法を採用して、ベイジアン ディープラーニングにおける不確実性の推定において大きな進歩を遂げました。
最後に、ゲーム理論のナッシュ均衡 (NE) について考察します。これは、他のプレイヤーが戦略を維持すれば、どのプレイヤーも戦略を変更しても利益を得られない状態です。単純な 2 人プレイのゲーム以外では、ナッシュ均衡を近似することさえ計算的に困難ですが、口頭発表では、ポーカーからオークションまで、取引を交渉する最新のアプローチを紹介します。
私たちは、ICLR を後援し、Queer in AI や Women In Machine Learning などの取り組みをサポートできることを嬉しく思っています。このようなパートナーシップは、研究のコラボレーションを強化するだけでなく、AI と機械学習の活気に満ちた多様なコミュニティを育みます。
ICLR にお越しの際は、ぜひ弊社のブースと、隣にある Google Research の同僚たちをお訪ねください。弊社の先駆的な研究に触れ、ワークショップを主催する弊社のチームに会い、カンファレンス中に発表する弊社の専門家と交流してください。皆様とお会いできることを楽しみにしています。
すべての投稿を表示
オーストリア、ウィーン メッセ・ウィーン・コングレスセンター
私は Google の利用規約に同意し、私の情報が Google のプライバシー ポリシーに従って使用されることを承認します。
元記事: https://deepmind.google/discover/blog/google-deepmind-at-iclr-2024/