• Semidynamicsは、All-In-Oneエレメント上でLlaMA-2 7B-parameterモデル(BF16ウェイト)を実行し、ONNX Run Time Execution Providerを使用して、モデル内の全ての行列乗算層のTensorユニットの利用率を計算しました。
  • ベンチマークは、テンソルユニットとGazzillionストリーミングデータ管理IPの組み合わせを示しました。これは、メモリに束縛されたトランスフォーマーネットワークを使用するLLMモデルにとって重要です。他のアーキテクチャとは対照的に、ほとんどのユースケースで80%以上の利用率が示され、スパースネットワークや形状に関係なく、行列のサイズによらない利用率が示されました。
  • SemidynamicsのCEOであるRoger Espasa氏は、「伝統的なAI設計は、CPU、GPU(グラフィックプロセッサユニット)、NPU(ニューラルプロセッサユニット)の3つの別々の計算要素を使用し、それらをバスで接続しています。この伝統的なアーキテクチャは、DMA集中型プログラミングを必要とし、誤りが生じやすく、遅く、エネルギーを多く消費します。さらに、NPUは将来のAIアルゴリズムに適応できない固定機能ハードウェアです」と述べています。
  • Semidynamicsは、RISC-Vコア、行列乗算を処理するTensorユニット(NPUの役割)、活性化のような計算を処理するVectorユニット(GPUの役割)を1つのスケーラブルな処理要素に統合した新しいアーキテクチャを提供しています。
  • TensorユニットとVectorユニットは、柔軟なCPUの直接制御下にあり、既存または将来のAIアルゴリズムを展開できるため、顧客の投資を保護できます。
  • LLMで使用される自己注意層には、5つの行列乗算(MatMul)、行列の転置、SoftMax活性化関数が使用されます。Tensorユニット(TU)は行列乗算を担当し、Vectorユニット(VU)は転置とSoftMaxを効率的に処理できます。
  • TensorユニットとVectorユニットはベクトルレジスタを共有するため、高価なメモリコピーを大幅に回避でき、MatMul層から活性化層へのデータ転送時の遅延とエネルギー消費を排除できます。
  • TUとVUを連続的に稼働させるためには、ウェイトと入力を効率的にベクトルレジスタに取り込む必要があります。Gazzillion Misses技術は、多数のインフライトキャッシュミスをサポートし、データを事前に取得して高いリソース利用率を提供します。
  • Semidynamicsは、All-In-One AI IP用に最適化されたONNXランタイムを提供し、プログラマーが簡単にMLモデルを実行できるようにしています。

この記事では、Semidynamicsが新しいAIアーキテクチャを導入し、モデル内の行列乗算層のTensorユニットの利用率を80%以上に向上させることができることが示されています。また、RISC-Vコア、Tensorユニット、Vectorユニットを統合したAll-In-One処理要素は、従来のアーキテクチャよりも高い性能と低いエネルギー消費を提供し、開発コストを削減することができます。

元記事: https://www.eenewseurope.com/en/semidynamics-benchmarks-7bn-parameter-model-on-risc-v-ai-ip/