- オープンソースの最先端のマルチモーダルAIモデルファミリー、Molmoが発表された
- Molmoは、OpenAIのGPT-4o、AnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5などのプロプライエタリなライバルを上回る
- Molmoは画像やファイルを受け入れ、分析できるため、プロプライエタリなファウンデーションモデルと同様の機能を持つ
- Molmoはプロプライエタリなライバルよりも1000倍少ないデータを使用し、新しいトレーニング技術を使用している
- Molmoは、高性能のモデルをオープンに提供し、Apache 2.0ライセンスの下で入手可能
- モデルは高性能であり、他のマルチモーダルモデルにはない視覚的な説明を提供し、物理環境と効果的に対話できる
- Molmoのアーキテクチャは効率と性能を最大限に引き出すように設計されており、OpenAIのViT-L/14 336px CLIPモデルを使用している
- MolmoはAI2のベンチマークで高いスコアを獲得し、特にMolmo-72Bは多くのカテゴリでプロプライエタリなモデルを上回っている
- Ai2はこれらのモデルとデータセットをHugging Faceスペースで提供し、主要なAIフレームワークと互換性がある
私の考え:Molmoは革新的なマルチモーダルAIモデルであり、オープンなアプローチを取っている点が素晴らしいと思います。プロプライエタリなモデルを上回る性能を持ちながら、研究者や開発者に先端技術を提供しています。特に物理環境と効果的に対話できるという点は、今後のロボティクスや複雑なマルチモーダル推論の分野で非常に有望です。