- University of Marylandの研究チームがAxoNNという拡張可能な分散トレーニングフレームワークを開発し、Gordon Bell Prizeにノミネートされた
- AxoNNはGPUを活用して大規模言語モデルの迅速なトレーニングを可能にする
- Frontierスーパーコンピューターの計算能力を利用して、3200億パラメータのAIモデルのトレーニングを記録的な速度で実現
- Frontierは37,000以上のAMD Instinct™ MI250X GPUsを搭載し、16,000のGPUを使用して1.38エクサフロップスのスピードを達成
- AxoNNはPyTorch機械学習ライブラリに基づく高度に拡張可能なオープンソースフレームワークで、3D行列乗算アルゴリズムを使用している
- Frontierスーパーコンピューターを使用して、プライバシーリスクを軽減するためのGoldfish Loss技術を効率的にテスト
この記事では、University of Marylandの研究チームが開発したAxoNNという分散トレーニングフレームワークについての研究が紹介されています。このフレームワークはGPUを活用して大規模な言語モデルのトレーニングを高速かつ効率的に行うことができ、Gordon Bell Prizeにノミネートされました。特にFrontierスーパーコンピューターの計算能力を活用し、記録的な速度でAIモデルのトレーニングを行うことができる点が強調されています。さらに、プライバシーリスクを軽減するための技術や他のスーパーコンピューターでの研究成果も紹介されています。