• University of Marylandの研究チームがAxoNNという拡張可能な分散トレーニングフレームワークを開発し、Gordon Bell Prizeにノミネートされた
  • AxoNNはGPUを活用して大規模言語モデルの迅速なトレーニングを可能にする
  • Frontierスーパーコンピューターの計算能力を利用して、3200億パラメータのAIモデルのトレーニングを記録的な速度で実現
  • Frontierは37,000以上のAMD Instinct™ MI250X GPUsを搭載し、16,000のGPUを使用して1.38エクサフロップスのスピードを達成
  • AxoNNはPyTorch機械学習ライブラリに基づく高度に拡張可能なオープンソースフレームワークで、3D行列乗算アルゴリズムを使用している
  • Frontierスーパーコンピューターを使用して、プライバシーリスクを軽減するためのGoldfish Loss技術を効率的にテスト

この記事では、University of Marylandの研究チームが開発したAxoNNという分散トレーニングフレームワークについての研究が紹介されています。このフレームワークはGPUを活用して大規模な言語モデルのトレーニングを高速かつ効率的に行うことができ、Gordon Bell Prizeにノミネートされました。特にFrontierスーパーコンピューターの計算能力を活用し、記録的な速度でAIモデルのトレーニングを行うことができる点が強調されています。さらに、プライバシーリスクを軽減するための技術や他のスーパーコンピューターでの研究成果も紹介されています。

元記事: https://insidehpc.com/2024/11/exascale-univ-of-maryland-researchers-nominated-for-gordon-bell-prize-for-extreme-scale-llm-training-using-frontier/