Kinara Ara-2 プロセッサ、70 億パラメータ LLM を実行しながら 1 秒あたり 12 トークンを達成 | Morningstar

ByManagetech

8月 9, 2024

Kinara Ara-2プロセッサーは、1秒あたり12トークンの速度で動作し、70億パラメータのLLMを実行する
YouTubeで利用可能な新しいビデオで、この最先端のAIプロセッサーの生成AI能力がデモンストレーションされている
Kinara Ara-2は、LLMなどの生成AIアプリケーションを正確かつ効率的に実行する能力を示し、エッジでデータプライバシーを確保し、遅延を軽減するために必要とされる
Generative AI処理をエッジで実行することで、ユーザーはパーソナルコンピューターに統合されたハードウェアの一度きりのコストのみを支払い、高額なクラウド利用料金を回避できる

私の考え：

「Kinara Ara-2プロセッサーが低消費電力のエッジAIプロセッサー上でLLMを実行する能力は素晴らしい成果です。7BパラメータLLMで1秒あたり12トークンを達成することは大きな偉業です。今後は、モデル自体を変更せずに先進的なソフトウェア技術を適用して、1秒あたり15トークンに達する目標に向かっています」とKinaraの主任アーキテクト、Wajahat Qadeer氏は述べています。

元記事: https://www.morningstar.com/news/business-wire/20240808164943/kinara-ara-2-processor-hits-12-tokens-per-second-running-7-billion-parameter-llms