要約:
- メリーランド大学を率いる研究チームが、AxoNNと呼ばれるスケーラブルな分散トレーニングフレームワークを開発し、Gordon Bell Prizeにノミネートされた。
- AxoNNはGPUを活用して大規模な言語モデルを迅速にトレーニングすることができる。
- Frontierスーパーコンピューターの計算能力を活用し、AxoNNは3200億のパラメータに対してAIモデルのトレーニングを記録的な速度で行うことができる。
- AxoNNはPyTorch機械学習ライブラリに基づいた高度にスケーラブルなオープンソースフレームワークで、数万のGPUでLLMモデルのトレーニングを並列化することができる。
- Frontierは37,000以上のAMD Instinct™ MI250X GPUsを搭載し、世界最速のスーパーコンピュータとして知られている。
感想:
今回の研究チームが開発したAxoNNは、GPUを活用して大規模な言語モデルのトレーニングを効率的かつ迅速に行うことができる画期的なフレームワークです。Frontierスーパーコンピューターの計算能力を最大限に活用し、新記録を樹立するレベルのトレーニング速度を実現しています。また、プライバシーのリスクを軽減するためのGoldfish Lossという技術の活用も興味深いです。今後のスーパーコンピューティング分野での展開が楽しみです。