• Semidynamicsは、LlaMA-2 7B-parameterモデル(BF16 weights)をAll-In-One要素に実行し、ONNX Run Time Execution Providerを使用して、モデル内のすべての行列乗算レイヤーのTensor Unitの利用を計算しました。
  • ベンチマークは、テンソルユニットとGazzillionストリーミングデータ管理IPの組み合わせを示しました。これは、メモリに制約のあるトランスフォーマーネットワークを使用するLLMモデルにとって重要です。
  • 従来のAI設計は、CPU、GPU、およびNPUをバスを介して接続する3つの異なるコンピューティング要素を使用します。
  • Semidynamicsは、新しいアーキテクチャを提供し、3つの要素を1つのスケーラブルな処理要素に統合します。
  • TensorユニットとVectorユニットは、柔軟なCPUの直接制御下にあり、既存のまたは将来のAIアルゴリズムを展開できます。
  • LLMで使用される自己アテンションレイヤーは、5つの行列乗算(MatMul)、行列の転置、SoftMax活性化関数を使用します。
  • TUは行列乗算を処理し、VUは転置とSoftMaxを効率的に処理できます。
  • Gazzillion Missesテクノロジーは、多数のインフライトキャッシュミスをサポートし、高いリソース利用率を提供します。
  • セルフアテンションレイヤーを使用するLLMでは、TUとVUを連続的に忙しく保つために、ウェイトと入力を効率的にベクターレジスターに取得する必要があります。

新しいAll-In-One AI IPは、優れたAIパフォーマンスだけでなく、プログラミングもはるかに簡単になりました。開発者は、3つの代わりに1つのソフトウェアスタックを使用できます。また、SemidynamicsはAll-In-One AI IPに最適化されたONNXランタイムを提供しています。

私の考え:新しいアーキテクチャは、従来のAI設計よりも高いパフォーマンスを提供し、プログラミングの容易さを向上させています。特に、3つの要素を1つに統合することで、開発コストを削減し、将来のAIアルゴリズムにも柔軟に対応できる点が注目に値します。

元記事: https://www.eenewseurope.com/en/semidynamics-benchmarks-7bn-parameter-model-on-risc-v-ai-ip/