ミッションクリティカルな推論を実行するために必要なものすべて (DeepSeek v3 + SGLang を使用)

AI Engineer Summit in NYC に参加するためのスポンサーシップと応募が開始されました。AIエージェントを構築しているか、AIエンジニアチームをリードしている方にとって、これは今年最も重要なカンファレンスとなるでしょう。

中国の Whale Bros は2024年の年末に DeepSeek v3 の最後の大きなモデルローンチを行いました。DeepSeek v3 は現在、LM Arena で世界で7番目に評価されており、スコアは1319で、フル o1 モデル、Gemini 2、最新の4oの下、o1-mini、Grok 2、Gemini 1.5 Pro、Claude 3.5 Sonnet の上に位置しています。これにより、2025年1月に世界で最高のオープンウェイトモデルとなりました。

中国のラボで非常に大きなオープンウェイトモデルがリリースされるという最近のトレンドがあり、TenCent が11月に Hunyuan-Large、Hailuo が今週に MiniMax-Text をそれぞれ4,000億以上のサイズでリリースしました。ただし、これらの超大型言語モデルは非常に難しいため、サービス提供が困難です。

Baseten は、H200 クラスター、DeepSeek チームとの緊密な協力、新しい VLLM の代替として使われている SGLang など、さまざまな先進ラボでも使用されている要素から、最初に Inference neocloud スタートアップの一つとして DeepSeek V3 をオンラインで使用しました。各 H200 には141 GBのVRAMと、4.8 TB/秒の帯域幅があり、DeepSeek v3 をFP8で推論するために8つのH200を1ノードで使用できます。

私たちは、BasetenにSarah GuoがAmir Haghighatをswyxに紹介して以来、Basetenとは密接な関係にあり、San Franciscoで最初の Latent Space Demo Day をサポートし、それがswyxとAlessioが一緒に仕事をするための試行となりました。

フィリップ・キーリーは、2024年のワールドフェアでTensorRT LLMに関する人気のあるワークショップを主催しました。

DeepSeek、SGLang、および世界中の最大のAI製品向けにスケールで実行されるMission Critical Inferenceワークロードについて、Basetenの代表者2名であるAmirとリードモデルパフォーマンスエンジニアYineng Zhangによるディスカッションを行いました。

3つの柱を持つプロダクション推論実行の必要性について語り合いました。パフォーマンス、水平スケーリング、開発者体験が重要であると述べられました。

元記事: https://substack.com/home/post/p-155135149%3Futm_campaign%3Dpost%26utm_medium%3Dweb

ミッションクリティカルな推論を実行するために必要なものすべて (DeepSeek v3 + SGLang を使用)

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY