オープンソースの大規模言語モデル (LLM) の最新の進歩である Meta Llama 3 が、Oracle Cloud Infrastructure (OCI) 上の ARM ベースの CPU である Ampere Altra を使用した推論ワークロードに利用できるようになりました。Meta が 4 月 18 日にリリースした Llama 3 モデルは、「これまでで最も高性能なオープン利用可能な LLM」として高く評価されており、言語処理タスクに前例のないパフォーマンスと柔軟性を提供します。
2024 年 3 月に、私たちは Generative AI の分野における CPU の役割を調査し、OCI Ampere A1 Compute Shapes での有望な llama 2 7B 推論結果を共有しました (ブログを参照)。既存の llama.cpp オープンソース プロジェクトの最適化に基づいて、OCI Ampere A1 シェイプで Llama 3 8B Instruct モデルをサポートし、最適な結果を実現できるようになりました。これにより、小さな (< 15B) パラメータの LLM に対する CPU ベースの推論の価値をさらに証明できます。
これまでの検証の成功を踏まえ、OCI と Ampere コンピューティングは緊密に連携し、Ampere Altra ARM ベースの CPU で最適なパフォーマンスが得られるよう llama.cpp をさらに微調整しました。現在、Ampere A1 は Llama 3 8B Instruct モデルを最適にサポートできます。OCI Ampere A1 Flex シェイプで実施されたパフォーマンス ベンチマークでは、バッチ サイズが大きい場合でも Llama 3 8B モデルの優れた機能が実証されています。単一ノード構成でスループットが最大 115 トークン/秒 (TPS) に達する推論速度は、Ampere A1 が実稼働ワークロードに適していることを強調しています。さらに、OCI リージョン全体で Ampere シェイプが広く利用できるため、世界中のユーザーがアクセスしやすく、拡張性も確保されています。
以下の表は、64 個の Oracle CPU ユニット (OCPU) と 360 GB のメモリを搭載した単一ノード OCI Ampere A1 Flex マシンで、128 入力トークン サイズと 128 出力トークン サイズで同時実行 (バッチ) 1 から 16 までの詳細を示しています。OCI Ampere A1 Flex Shapes での Llama 3 8B のパフォーマンスは、Llama 2 7B のパフォーマンスと同等か、それより優れています。
導入プロセスを効率化し、実験を容易にするために、OCI は OCI Marketplace にカスタム マーケットプレイス イメージを導入し、Ampere に最適化された llama.cpp と Serge UI オープンソース プロジェクトを利用した使いやすい LLM 推論チャットボットを提供しています。これにより、ユーザーは最小限の労力で Llama 3 を OCI に導入してテストすることができ、初心者と経験豊富な実践者の両方にシームレスなエクスペリエンスを提供できます。独自の OCI テナンシーに導入されるこの導入オペレーティング システム (OS) イメージの詳細については、こちらをご覧ください。
この OS イメージに含まれる UI の概要。
イノベーションへの継続的な取り組みの一環として、OCI と Ampere は、Retrieval Augment Generation (RAG) および Lang チェーン機能との統合を含むシナリオ サポートの拡張に積極的に取り組んでいます。これらの機能強化により、Llama 3 の機能がさらに向上します。
既存の OCI 顧客の場合は、OCI Ampere A1 LLM 推論マーケットプレイスの Ampere A1 LLM 推論開始イメージを起動して、今すぐ開始してください。また、Ampere A1 フレックス シェイプでの AI ワークロードの検証を支援するために、最大 3 か月分の Ampere A1 の 64 コアと 360 GB のメモリの無料クレジットも提供しています。クレジットの有効期限は 2024 年 12 月 31 日です。
OCI Ampere A1 で動作する Meta Llama 3 の提供開始は、CPU ベースの言語モデル推論の進歩を意味し、比類のない価格性能比、拡張性、および導入の容易さを提供します。AI 主導型コンピューティングの限界を押し広げ続ける中で、この探究と発見の旅にぜひご参加ください。Ampere ARM ベースの CPU で Generative AI を解き放つ新しい可能性を模索しながら、今後のアップデートにご期待ください。
複数のイニシアチブの取り組みを主導する AI/ML インキュベーション チームの一員。生成 AI 製品、コンテナ、コンテナ セキュリティ、機密コンピューティング、インフラストラクチャの効率的な使用に熱心に積極的に貢献しています。Amar は、Cloud Native Cloud Foundation (CNCF) のオープン ソース プロジェクトもフォローし、貢献しています。
AIインキュベーション/戦略的イニシアチブ担当プロダクトマネージャー

元記事: https://translate.google.com/translate?sl=auto&tl=ja&hl=ja&u=https://blogs.oracle.com/ai-and-datascience/post/introducing-meta-llama-3-on-oci-ampere-a1