東京, 2024年5月10日 – (JCN Newswire) – 日本の研究者チームは、理化学研究所のスーパーコンピュータ「富岳」を利用して、日本語の学習能力を強化した大規模言語モデル(1)「富岳-LLM」をリリースしました。チームを率いるのは、東京工業大学の横田理生教授、東北大学の坂口敬介准教授、富士通株式会社の白幡耕一氏、理化学研究所のモハメド・ワヒブチームリーダー、名古屋大学の西口孝治准教授、株式会社サイバーエージェントの佐々木翔太氏、株式会社コトバテクノロジーズの小島典之氏です。
研究者らは、富岳上で大規模言語モデルを訓練するために、分散訓練手法を開発しました。これには、富岳上のTransformersのパフォーマンスを最適化するために、深層学習フレームワークMegatron-DeepSpeedを富岳に移植することが含まれます。研究者らは、Transformersの密行列乗算ライブラリを高速化し、3種類の並列化技術を組み合わせて富岳の通信パフォーマンスを最適化し、TofuインターコネクトD上の集合通信ライブラリを高速化しました。
富岳LLMは130億パラメータ(2)を有し、日本で広く開発されている70億パラメータのモデルよりも大規模です。富岳LLMは日本語能力を強化しており、日本語MT-Bench(3)で平均スコア5.5を獲得し、日本で制作されたオリジナルデータを使用して学習されたオープンモデルの中では最高の性能を発揮します。特に人文社会科学タスクのベンチマーク性能は9.18と非常に高いスコアを達成しました。
富岳LLMは、サイバーエージェントが独自に収集した日本語データ、英語データ、その他のデータを用いて学習されました。富岳LLMのソースコードはGitHub(4)で公開されており、モデルはHugging Face(5)で公開されています。富岳LLMは、ユーザーがライセンスに従う限り、研究目的や商用目的で使用することができます。
今後、より多くの研究者や技術者がモデルやその応用の改良に参加することで、学習の効率が向上し、科学的シミュレーションと生成AIの連携、数千のAIによる仮想コミュニティの社会シミュレーションなど、次世代の革新的な研究やビジネスへの応用につながることが期待されます。背景近年、米国を中心に大規模言語モデル(LLM)の開発が活発化しています。特に、OpenAIが開発したChatGPT(6)の急速な普及は、研究開発、経済システム、国家安全保障に大きな影響を与えています。米国以外の国々も、自国でのLLM開発に膨大な人的・計算資源を投入しています。日本もこの世界的な競争に遅れを取らないよう、AI研究のための計算資源を確保する必要があります。日本のフラッグシップスーパーコンピュータシステムである富岳への期待は大きく、その期待に応えるためには富岳上での大規模分散学習のための計算環境を整備する必要があります。
そこで、東京工業大学、東北大学、富士通、理化学研究所、名古屋大学、サイバーエージェント、コトバテクノロジーズは、大規模言語モデルの開発に関する共同研究プロジェクトを開始しました。
各機関・企業の役割
東京工業大学:大規模言語モデルの総合統括、並列化と通信高速化(3種類の並列化の組み合わせによる通信性能の最適化、TofuインターコネクトD上の集団通信の高速化)
東北大学: トレーニングデータの収集とモデルの選択
富士通:計算と通信の高速化(TofuインターコネクトD上の集団通信の高速化、パイプライン並列化の性能最適化)と事前学習および学習後の微調整の実装
理化学研究所:大規模言語モデルの分散並列化と通信高速化(TofuインターコネクトD上の集団通信の高速化)
名古屋大学: 富岳LLMの3D生成AIへの応用手法に関する研究
サイバーエージェント:学習データの提供
Kotoba Technologies: 深層学習フレームワークの富岳への移植
図1. 理化学研究所のスーパーコンピュータ「富岳」 ©理化学研究所研究成果1. スーパーコンピュータ「富岳」上での大規模言語モデルの学習の計算性能を大幅に向上
GPU (7)は大規模言語モデルの学習用ハードウェアとして一般的に選択されているが、多くの国がLLMの学習に多額の投資を行っているため、GPUは世界的に不足している。このような状況下では、GPUではなくCPUを使用する富岳を使用して大規模言語モデルを学習できることを示すことが重要である。富岳で使用されているCPUは富士通製の日本製CPUであり、日本の半導体技術の活性化という点で重要な役割を果たしている。
本研究では、富岳の潜在能力を最大限に引き出すことで、行列積の計算速度を6倍、通信速度を3倍に高めることに成功しました。富岳での分散学習性能を最大化するため、深層学習フレームワークMegatron-DeepSpeedを富岳に移植し、密行列積ライブラリをTransformer向けに高速化しました。通信高速化では、3種類の並列化技術を組み合わせて富岳の通信性能を最適化し、TofuインターコネクトD上の集団通信を高速化しました。これらの取り組みで得られた知見は、富岳以降の次世代コンピューティング基盤の設計に活かされ、AI分野における日本の将来的な優位性を大きく高めるものです。
2. 130億のパラメータを持つ、使いやすく、オープンで安全な大規模言語モデル
2023年には日本企業によって多くの大規模言語モデルが開発されましたが、そのほとんどは70億パラメータ未満です。大規模言語モデルは一般的にパラメータ数が増えるほど性能が向上するため、研究チームが開発した130億パラメータのモデルは他の日本のモデルよりも強力である可能性があります。日本国外でもより大きなモデルが開発されていますが、大規模言語モデルには大きな計算リソースも必要となるため、パラメータが多すぎるモデルは使いにくくなります。富岳-LLMは高性能でありながらバランスが取れています。
また、日本企業が開発するモデルの多くは継続学習(8)を採用しており、海外で開発されたオープンモデルを日本のデータで継続的に学習させています。これに対し、富岳LLMはチーム独自のデータを使ってゼロから学習するため、学習プロセス全体が把握でき、透明性と安全性の面で優れています。
富岳-LLMは、富岳の13,824ノードを用いて3,800億トークンの学習を行い、学習データの約60%は日本語で、英語、数学、コードを組み合わせています。日本語で継続的に学習するモデルと比較して、富岳-LLMは日本語で多くの情報を学習しました。富岳-LLMは、日本で制作され、独自のデータで学習したオープンモデルの中では最も優れたモデルです。特に、人文社会科学のタスクでは、9.18という高いベンチマークスコアを示すことが確認されました。このモデルは、敬語などの日本語の特徴に基づいた自然な対話を実行できることが期待されます。
本研究の成果は、他の研究者やエンジニアが大規模言語モデルの開発に活用できるよう、GitHubやHugging Faceを通じて公開されます。富岳-LLMは、ユーザーがライセンスを遵守する限り、研究目的および商用目的で利用可能です。また、富岳-LLMは、2024年5月10日から富士通リサーチポータルを通じてユーザーに提供される予定です。
今後、より多くの研究者やエンジニアがモデルとそのアプリケーションの改善に参加することで、トレーニングの効率が向上し、科学的シミュレーションと生成AIの連携、数千のAIによる仮想コミュニティの社会的シミュレーションなど、次世代の革新的な研究とビジネスアプリケーションにつながります。
本研究は、富岳政策支援提案「富岳を用いた大規模言語モデルの分散並列学習技術の開発」(提案番号:hp230254)により支援を受けました。
[1] 大規模言語モデル:テキストが出現する確率をモデル化し、与えられた文脈(クエリ)に続くテキスト(レスポンス)を予測できる。[2] パラメータ:ニューラルネットワークのサイズを表す尺度。パラメータが多いほどモデルの性能は高くなるが、学習に必要なデータ量も増える。[3] MT-Bench:Stability AIが提供するベンチマークテスト[4] GitHub:オープンソースソフトウェアを公開するプラットフォーム[5] Hugging Face:AIデータセットを公開するプラットフォーム[6] ChatGPT:OpenAIが開発した大規模言語モデル。リリース後約2か月でユーザー数が1億人を突破するなど、大きな社会的変革をもたらした。[7] GPU:もともとグラフィックス用のアクセラレータとして製作されたが、最近ではディープラーニングの高速化にも利用されている[8] 継続学習:学習済みの大規模言語モデルに対して、さらに学習を行う手法。異なる言語やドメインの言語モデルの学習に用いられる。富士通について
富士通の使命は、イノベーションを通じて社会の信頼を築き、世界をより持続可能なものにすることです。100か国以上のお客様に選ばれるデジタルトランスフォーメーションのパートナーとして、当社の124,000人の従業員は、人類が直面する最大の課題の解決に取り組んでいます。当社のサービスとソリューションは、コンピューティング、ネットワーク、AI、データとセキュリティ、コンバージングテクノロジーの5つの主要テクノロジーを活用しており、これらを組み合わせて持続可能な変革を実現します。富士通株式会社(TSE:6702)は、2024年3月31日終了の会計年度の連結売上高が3.7兆円(260億米ドル)で、市場シェアで日本のトップデジタルサービス企業であり続けています。詳細については、www.fujitsu.comをご覧ください。
報道関係お問い合わせ先富士通株式会社広報IR部

元記事: https://www.jcnnewswire.com/english/pressrelease/90757/3/Release-of-Fugaku-LLM—a-large-language-model-trained-on-the-supercomputer-Fugaku

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください