- NeurIPS 2024では、Microsoftの研究者や協力者による100以上の論文が受け入れられており、5つの口頭発表と19のスポットライトセッションが含まれている。
- Rho-1は新しい言語モデルであり、選択的な言語モデリングを使用しており、望ましい分布と一致するトークンに焦点を当ててトレーニングを行う。
- CVQAは文化的に多様なマルチリンガルなビジュアル質問応答のベンチマークであり、文化的な画像や質問を含んでいる。
- VASAは静止画像とオーディオクリップからリアルな話す顔を生成するためのフレームワークである。
- YOCOはGPUメモリの使用量を削減するためのデコーダーデコーダーアーキテクチャであり、グローバルアテンションを保持しつつ、キーと値のペアをキャッシュする。
これらの研究は、AIの未来を形作るための革新を進めることに焦点を当てており、機械学習モデルの効率性、拡張性、堅牢性を向上させると同時に、現実世界の課題に対処していることが共通のテーマとなっています。