要約:

  • メリーランド大学を率いる研究チームが、AxoNNと呼ばれるスケーラブルな分散トレーニングフレームワークを開発し、Gordon Bell Prizeにノミネートされた。
  • AxoNNはGPUを活用して大規模な言語モデルを迅速にトレーニングすることができる。
  • Frontierスーパーコンピューターの計算能力を活用し、AxoNNは3200億のパラメータに対してAIモデルのトレーニングを記録的な速度で行うことができる。
  • AxoNNはPyTorch機械学習ライブラリに基づいた高度にスケーラブルなオープンソースフレームワークで、数万のGPUでLLMモデルのトレーニングを並列化することができる。
  • Frontierは37,000以上のAMD Instinct™ MI250X GPUsを搭載し、世界最速のスーパーコンピュータとして知られている。

感想:

今回の研究チームが開発したAxoNNは、GPUを活用して大規模な言語モデルのトレーニングを効率的かつ迅速に行うことができる画期的なフレームワークです。Frontierスーパーコンピューターの計算能力を最大限に活用し、新記録を樹立するレベルのトレーニング速度を実現しています。また、プライバシーのリスクを軽減するためのGoldfish Lossという技術の活用も興味深いです。今後のスーパーコンピューティング分野での展開が楽しみです。

元記事: https://insidehpc.com/2024/11/exascale-univ-of-maryland-researchers-nominated-for-gordon-bell-prize-for-extreme-scale-llm-training-using-frontier/