- SmolLMはHugging Faceが発表した新しいコンパクトな言語モデルファミリーで、Microsoft、Meta、AlibabaのQwenよりも性能が優れている。
- このモデルは、パーソナルデバイスに高度なAI機能をもたらし、パフォーマンスやプライバシーを犠牲にすることなく、3つのサイズ(1億3500万、3億6000万、17億のパラメータ)を備えている。
- 小さなフットプリントであるにもかかわらず、これらのモデルは常識的な推論や世界知識をテストするベンチマークで優れた結果を示している。
- SmolLM-135MはMetaのMobileLM-125Mを上回り、SmolLM-360Mは500億未満のすべてのモデルを上回る。
- フラッグシップモデルのSmolLM-1.7Bは、MicrosoftのPhi-1.5、MetaのMobileLM-1.5B、Qwen2-1.5Bを複数のベンチマークで上回っている。
- Hugging Faceは、データ収集からトレーニング手順までの開発プロセスをオープンソース化し、透明性を重視している。
- これらのモデルは、入念に選別されたトレーニングデータによって優れたパフォーマンスを発揮している。
- SmolLMはCosmo-Corpusをベースにしており、Cosmopedia v2、Python-Edu、FineWeb-Eduなどが含まれている。
私の考え:SmolLMのようなコンパクトなモデルが、特定のタスクに特化した効果的なAI機能を提供できるという考えは興味深いです。Hugging Faceがオープンソースの価値観と再現可能な研究にコミットしていることも評価されます。トレーニングデータの選別に重点を置くことで、優れた性能が実現されている点も注目に値します。