- CerebrasのクラウドAIサービスCerebras Inferenceは、MetaのLlama 3.1 405Bを1秒間に969トークン実行しました。
- これは、AWSの最速のGPUを使用したAIサービスよりも75倍高速です。
- CerebrasはWafer Scale Enginesを使用し、NvidiaやAMDのGPUではなくLLMを実行します。
- Cerebras Inferenceは、Nvidia GPUを使用したAWSよりも20倍速いと主張されています。
- MetaのLlama 3.1 405Bは、4050億のパラメータを持ち、CerebrasのWafer Scale Engineプロセッサーによって「瞬時の速度」で実行されます。
私の感想: Cerebrasの技術は非常に印象的であり、既存のGPUに比べて大幅に高速であることが示されています。これにより、大規模なモデルやシミュレーションを高速に処理できる可能性が広がります。今後、AI分野のさらなる進展が期待されます。