• アリババクラウドのエンジニアで研究者のEnnan Zhai氏が、LLMトレーニングのためのデータセンター内でのGPUの相互接続についての研究論文を発表
  • HPN(高性能ネットワーク)を構築し、アリババのデータセンターで使用
  • HPNは、ECMPを抑制し、ハッシュの偏極を回避し、ネットワークパスを正確に選択するための二層デュアルプレーンアーキテクチャを使用
  • アリババのAIデータセンターでは、1,875台のホストが各々8つのGPUと9つのNICで通信し、合計帯域幅が3.2 Tbpsの400 Gbpsずつになる
  • アリババの研究では、ホスト間の接続にNVIDIAのNVlinkではなくEthernetを使用
  • 51.2Tbpsのシングルチップスイッチを選択し、マルチチップスイッチよりも信頼性の高い冷却システムを開発
  • アリババのHPNは既に8か月間稼働しており、SIGCOMM会議で技術を発表予定

アリババの研究は高性能ネットワークの構築に成功し、大規模なGPU相互接続を実現していることが特筆される。Ethernetを使用することでNVlinkを回避し、信頼性の高いシングルチップスイッチと冷却システムを採用することで、データセンターの効率的な運用が可能になっている。SIGCOMM会議での発表が楽しみだ。

元記事: https://gigazine.net/gsc_news/en/20240701-alibaba-cloud-interconnect-gpu/