AI Engineer Summit in NYC に参加するためのスポンサーシップと応募が開始されました。AIエージェントを構築しているか、AIエンジニアチームをリードしている方にとって、これは今年最も重要なカンファレンスとなるでしょう。
中国の Whale Bros は2024年の年末に DeepSeek v3 の最後の大きなモデルローンチを行いました。DeepSeek v3 は現在、LM Arena で世界で7番目に評価されており、スコアは1319で、フル o1 モデル、Gemini 2、最新の4oの下、o1-mini、Grok 2、Gemini 1.5 Pro、Claude 3.5 Sonnet の上に位置しています。これにより、2025年1月に世界で最高のオープンウェイトモデルとなりました。
中国のラボで非常に大きなオープンウェイトモデルがリリースされるという最近のトレンドがあり、TenCent が11月に Hunyuan-Large、Hailuo が今週に MiniMax-Text をそれぞれ4,000億以上のサイズでリリースしました。ただし、これらの超大型言語モデルは非常に難しいため、サービス提供が困難です。
Baseten は、H200 クラスター、DeepSeek チームとの緊密な協力、新しい VLLM の代替として使われている SGLang など、さまざまな先進ラボでも使用されている要素から、最初に Inference neocloud スタートアップの一つとして DeepSeek V3 をオンラインで使用しました。各 H200 には141 GBのVRAMと、4.8 TB/秒の帯域幅があり、DeepSeek v3 をFP8で推論するために8つのH200を1ノードで使用できます。
私たちは、BasetenにSarah GuoがAmir Haghighatをswyxに紹介して以来、Basetenとは密接な関係にあり、San Franciscoで最初の Latent Space Demo Day をサポートし、それがswyxとAlessioが一緒に仕事をするための試行となりました。
フィリップ・キーリーは、2024年のワールドフェアでTensorRT LLMに関する人気のあるワークショップを主催しました。
DeepSeek、SGLang、および世界中の最大のAI製品向けにスケールで実行されるMission Critical Inferenceワークロードについて、Basetenの代表者2名であるAmirとリードモデルパフォーマンスエンジニアYineng Zhangによるディスカッションを行いました。
3つの柱を持つプロダクション推論実行の必要性について語り合いました。パフォーマンス、水平スケーリング、開発者体験が重要であると述べられました。
元記事: https://substack.com/home/post/p-155135149%3Futm_campaign%3Dpost%26utm_medium%3Dweb