- IBMの研究チームが開発したAI推論アクセラレータチップ、NorthPoleは、次に速いGPUよりもはるかに低いレイテンシーを達成し、次にエネルギー効率の高いGPUよりもはるかに高いエネルギー効率を実現
- NorthPoleは、AI推論用に設計されたチップで、LLMの推論テストで1トークンあたり1ミリ秒未満のレイテンシーを達成
- NorthPoleは、他のチップに比べてエネルギー効率が72.7倍高く、非常に高いオンチップメモリーバンド幅を持つ
- NorthPoleは、メモリと処理を同じ場所に配置することでvon Neumannボトルネックを排除し、処理速度を向上させる
- チームは、NorthPoleをデータセンターでの言語モデルに適用するために新たな課題に取り組み、成功を収めた
- チームは、より多くのNorthPoleチップを含むユニットを構築する計画であり、さらに大規模なモデルをマッピングする予定
新しいパフォーマンス結果は画期的であり、チームはNorthPoleのエネルギー効率を増やし、レイテンシーを低減するために数桁の改善を続けることができるとModha氏は自信を持っています。全体の垂直スタック全体で革新することが鍵だと述べており、次世代のハードウェアで実行されるように設計されたアルゴリズムを共同設計し、技術の拡張とパッケージングを活用し、完全に新しいシステムや推論アプライアンスを想像する必要があると指摘しています。
元記事: https://research.ibm.com/blog/northpole-llm-inference-results