ハギングフェイスは世界最小の視覚言語モデルを主張

1月 24, 2025

ハギングフェイスは、SmolVLMシリーズで最も小さなビジョン言語モデル（VLM）として2つの新しいモデルを導入した。
SmolVLM-256MとSmolVLM-500Mは、画像キャプション、ドキュメントQ&A、基本的な視覚的推論などのタスクを実行するために設計されており、以前のモデルよりもはるかに少ない計算リソースを使用している。
256Mモデルは、たった256百万のパラメータで、1GB未満のRAMを搭載したノートパソコンなどの制約のあるデバイスで動作可能である。
ハギングフェイスによると、これらのモデルは大量のデータを効率的に処理する開発者にも適している。
新しいモデルは、低スペックハードウェアでAIツールを利用可能にする方向転換を示している。

意見: ハギングフェイスの新しいSmolVLMシリーズは、小さなサイズながら高いパフォーマンスを提供し、制約のあるハードウェアでの開発や大規模データ処理に適しているようです。パラメータ数を削減することで、計算リソースを節約しつつ、タスクにおいて性能を向上させる工夫がなされている点が注目されます。