AiThority – 人工知能 | ニュース | 洞察 | AiThority

日本の研究者チームは、理化学研究所のスーパーコンピュータ「富岳」を利用して、日本語の学習能力を強化した大規模言語モデル(1)「富岳-LLM」を公開した。研究チームは、東京工業大学の横田理生教授、東北大学の坂口敬介准教授、富士通株式会社の白幡耕一氏、理化学研究所のモハメド・ワヒブチームリーダー、名古屋大学の西口幸治准教授、株式会社サイバーエージェントの佐々木翔太氏、株式会社コトバテクノロジーズの小島典之氏らによって率いられている。本研究は、富岳政策支援提案「富岳を用いた大規模言語モデルの分散並列学習技術の開発」(提案番号:hp230254)によって支援された。
研究者らは、富岳上で大規模言語モデルをトレーニングするために、分散トレーニング手法を開発しました。これには、富岳上のTransformersのパフォーマンスを最適化するために、深層学習フレームワークMegatron-DeepSpeedを富岳に移植することが含まれます。研究者らは、Transformersの密行列乗算ライブラリを高速化し、3種類の並列化技術を組み合わせて富岳の通信パフォーマンスを最適化し、TofuインターコネクトD上の集合通信ライブラリを高速化しました。
今後、より多くの研究者やエンジニアがモデルとそのアプリケーションの改善に参加することで、トレーニングの効率が向上し、科学的シミュレーションと生成AIの連携、数千のAIによる仮想コミュニティの社会的シミュレーションなど、次世代の革新的な研究とビジネスアプリケーションにつながります。
近年、米国を中心に大規模言語モデル(LLM)の開発が活発化しています。特にOpenAIが開発したChatGPT(6)の急速な普及は、研究開発、経済システム、国家安全保障に大きな影響を与えています。米国以外の国々も自国でのLLM開発に膨大な人的・計算資源を投入しており、日本もこの世界的な競争に遅れを取らないようAI研究のための計算資源を確保する必要があります。日本のフラッグシップスーパーコンピュータシステムである富岳への期待は大きく、その期待に応えるためには富岳上での大規模分散学習のための計算環境を整備する必要があります。
そこで、東京工業大学、東北大学、富士通、理化学研究所、名古屋大学、サイバーエージェント、コトバテクノロジーズは、大規模言語モデルの開発に関する共同研究プロジェクトを開始しました。
大規模言語モデルの学習には、GPU(7)がハードウェアとして一般的に選択されている。しかし、多くの国がLLMの学習に多額の投資を行っているため、GPUは世界的に不足している。このような状況下では、GPUではなくCPUを使用する富岳を使用して大規模言語モデルを学習できることを示すことが重要である。富岳で使用されているCPUは富士通製の日本製CPUであり、日本の半導体技術の活性化という点で重要な役割を果たしている。
本研究では富岳のポテンシャルを最大限に引き出すことで、行列積の計算速度を6倍、通信速度を3倍に高めることに成功しました。富岳での分散学習性能を最大化するため、深層学習フレームワークMegatron-DeepSpeedを富岳に移植し、密行列積ライブラリをTransformer向けに高速化しました。
通信高速化については、3種類の並列化技術を組み合わせて富岳の通信性能を最適化し、TofuインターコネクトD上の集団通信を高速化しました。これらの取り組みから得られた知見は、富岳に続く次世代コンピューティングインフラストラクチャの設計に活用でき、AI分野における日本の将来の優位性を大きく高めることになります。
2. 130億のパラメータを持つ、使いやすく、オープンで安全な大規模言語モデル
2023年には日本企業によって多くの大規模言語モデルが開発されましたが、そのほとんどはパラメータ数が70億未満です。

GenAI の実験は終了しました。GenAI のビジネス変革は始まったばかりです。

拡張 FinOps ムーブメント: AI がクラウド支出をどのように変えるか

AiThority インタビュー: AltaML の共同創設者兼共同 CEO、Nicole Janssen 氏

大規模言語モデルは一般的にパラメータ数が増えるほど性能が向上するため、研究チームが開発した130億パラメータのモデルは、他の日本語モデルよりも高性能であると考えられます。海外でもより大規模なモデルが開発されていますが、大規模言語モデルは大きな計算リソースを必要とするため、パラメータが多すぎるモデルは使いにくいという問題がありました。富岳LLMは、高性能でありながらバランスの取れたモデルです。
また、日本企業が開発するモデルの多くは継続学習(8)を採用しており、海外で開発されたオープンモデルを日本のデータで継続的に学習させています。これに対し、富岳LLMはチーム独自のデータを使ってゼロから学習するため、学習プロセス全体が把握でき、透明性と安全性の面で優れています。
富岳-LLMは、富岳の13,824ノードを用いて3,800億トークンの学習を行い、学習データの約60%は日本語で、英語、数学、コードを組み合わせています。日本語で継続的に学習するモデルと比較して、富岳-LLMは日本語で多くの情報を学習しました。富岳-LLMは、日本で制作され、独自のデータで学習したオープンモデルの中では最も優れたモデルです。特に、人文社会科学のタスクでは、9.18という高いベンチマークスコアを示すことが確認されました。このモデルは、敬語などの日本語の特徴に基づいた自然な対話を実行できることが期待されます。
この研究の結果は、他の研究者やエンジニアが大規模な言語モデルをさらに開発するために使用できるように、GitHub と Hugging Face を通じて公開されています。
富岳-LLMは、ユーザーがライセンスを遵守する限り、研究目的および商用目的で使用できます。富岳-LLMは、2024年5月10日から富士通リサーチポータルを通じてユーザーに提供される予定です。
今後、より多くの研究者やエンジニアがモデルとそのアプリケーションの改善に参加することで、トレーニングの効率が向上し、科学的シミュレーションと生成AIの連携、数千のAIによる仮想コミュニティの社会的シミュレーションなど、次世代の革新的な研究とビジネスアプリケーションにつながります。
この研究は、富岳政策支援提案「富岳を用いた大規模言語モデルの分散並列学習技術の開発」(提案番号:hp230254)によって支援されました。
[1] 大規模言語モデル:テキストが出現する確率をモデル化し、与えられたコンテキスト(クエリ)に続くテキスト(応答)を予測することができます。
[2] パラメータ:ニューラルネットワークのサイズの尺度。パラメータが多いほどモデルのパフォーマンスは高くなりますが、トレーニングに必要なデータも多くなります。
[3] 日本語MT-Bench: Stability AIが提供するベンチマークテスト[4] GitHub: オープンソースソフトウェアを公開するプラットフォーム
[5] ハギングフェイス:AIデータセットを公開するために使用されるプラットフォーム
[6] ChatGPT:OpenAIが開発した大規模言語モデルで、リリース後約2ヶ月でユーザー数が1億人を突破し、大きな社会的変革をもたらした。
[7] GPU:もともとグラフィックスのアクセラレータとして開発されましたが、最近ではディープラーニングの高速化にも使用されています[8] 継続学習:すでに学習済みの大規模言語モデルに対して、さらに学習を行う手法。異なる言語やドメインの言語モデルを学習する際に使用されます。
AiT スタッフライターは、ジャーナリズムとテクノロジーブログで長年の経験を持つ、訓練を受けたコンテンツマーケティングの専門家です。
お問い合わせの場合は、news@martechseries.com までご連絡ください。
GenAI の実験は終了しました。GenAI のビジネス変革は始まったばかりです。

GenAI の実験は終了しました。GenAI のビジネス変革は始まったばかりです。

拡張 FinOps ムーブメント: AI がクラウド支出をどのように変えるか

AiThority インタビュー: AltaML の共同創設者兼共同 CEO、Nicole Janssen 氏

AI革命:全力投入の時

AiThority.com は、世界中の AI テクノロジーのニュース、編集上の洞察、デジタル マーケティングのトレンドを取り上げています。最新のマーケティング テクノロジーの採用、AI インタビュー、テクノロジーに関する記事やイベントの最新情報をお届けします。

元記事: https://aithority.com/machine-learning/japanese-researchers-release-fugaku-llm-trained-on-the-fugaku-supercomputer/