要約:
- Qwen1.5-7Bモデルは、Ara-2 AIプロセッサー1つで12の出力トークンを1秒間に実行するという優れた操作を実証している。
- LLMやGenerative AIはデータプライバシーを確保し、遅延を減らすためにエッジで実行される必要がある。
- エッジでのGenerative AI処理はPCの機能性を向上させ、ドキュメント要約、転写、翻訳などのタスクを実行できる。
- QwenはApache 2.0ライセンスのもとでオープンソースとして利用可能であり、Alibaba Cloud(Tongyi Qianwen)の支援を受けている。
- Qwenは多言語対応であり、特定のテキストシーケンスに制限されず、車両で一般的な音声コマンド処理とは異なる。
- エッジでQwen1.5-7BなどのLLMを効果的に実行するには、Kinara Ara-2が高レベルの機能をサポートする必要がある。
- Kinaraは15の出力トークンを1秒間に達成することを目指しており、LLMを変更せずに高度なソフトウェア技術を適用している。
- Kinaraは革新的なソフトウェアと柔軟なアーキテクチャを活用し、低消費電力の整数プロセッサーでLLMを実行できる。
- Ara-2は高解像度の画像を迅速かつ高精度に処理するために先進の計算エンジンを使用し、高度な物体検出、認識、トラッキングを実行できる。
感想:
エッジでのGenerative AI処理はプライバシーや遅延の問題を解決するだけでなく、ユーザーにワンタイムのハードウェアコストを支払わせ、クラウド利用コストを回避する利点を提供します。Kinaraの技術は非常に興味深く、高度なソフトウェア技術と柔軟なアーキテクチャを駆使して、Generative AIの新たな可能性を切り拓いているように感じます。
元記事: https://www.eenewseurope.com/en/ai-processor-runs-7-billion-parameter-llms-at-the-edge/