要約:
- Cerebras Systems Inc.は、クラウドベースのAI大規模言語モデル推論サービスを提供し、Meta Platforms Inc.の最大モデルをほぼ1,000トークン/秒で実行可能と発表。
- 405Bのモデルは、4050億のパラメータを持ち、より高速かつ正確な結果を出力可能。
- 同社の特殊なアーキテクチャとカスタムシリコンにより、GPUよりも高速にモデルを実行可能。
- 価格はLlama 3.1 405Bの場合、入力トークン1百万あたり$6、出力トークン1百万あたり$12で、他社より25%安い。
- 実際の応用では、GPUシステムで5秒かかるテキスト検索の応答が0.07秒に短縮され、音声アプリケーションでもGPUよりもはるかに高速。
感想:
Cerebras Systems Inc.の最新のAI推論サービスは、Metaの最大モデルにおいて驚異的な性能を達成しています。モデルの複雑さやスピードを考慮すると、これは革新的な進歩であると言えます。特に、AIの応用において速さと正確性は重要であり、Cerebrasのサービスがこれらを高い水準で提供している点は非常に注目に値します。今後の展開が楽しみであり、AI技術の更なる発展に期待が高まります。