Alibaba Cloud の研究者が AI データセンター内の 15,000 個の GPU を相互接続する技術を発表、NVIDIA の技術を捨ててイーサネットを採用 – GIGAZINE

ByManagetech

7月 1, 2024

アリババクラウドのエンジニアで研究者のEnnan Zhai氏が、LLMトレーニングのためのデータセンター内でのGPUの相互接続についての研究論文を発表
HPN（高性能ネットワーク）を構築し、アリババのデータセンターで使用
HPNは、ECMPを抑制し、ハッシュの偏極を回避し、ネットワークパスを正確に選択するための二層デュアルプレーンアーキテクチャを使用
アリババのAIデータセンターでは、1,875台のホストが各々8つのGPUと9つのNICで通信し、合計帯域幅が3.2 Tbpsの400 Gbpsずつになる
アリババの研究では、ホスト間の接続にNVIDIAのNVlinkではなくEthernetを使用
51.2Tbpsのシングルチップスイッチを選択し、マルチチップスイッチよりも信頼性の高い冷却システムを開発
アリババのHPNは既に8か月間稼働しており、SIGCOMM会議で技術を発表予定

アリババの研究は高性能ネットワークの構築に成功し、大規模なGPU相互接続を実現していることが特筆される。Ethernetを使用することでNVlinkを回避し、信頼性の高いシングルチップスイッチと冷却システムを採用することで、データセンターの効率的な運用が可能になっている。SIGCOMM会議での発表が楽しみだ。

元記事: https://gigazine.net/gsc_news/en/20240701-alibaba-cloud-interconnect-gpu/