人工知能が変革を続ける中、大規模言語モデルの開発は AI 分野における重要な成果です。LLM (大規模言語モデル) は、機械が人間の言語を理解して作成する方法を変えた複雑なアルゴリズムです。メールのオートコンプリート機能からカスタマー サービスのチャットボットまで、LLM は目に見えないながらも現代のコミュニケーションに欠かせない要素です。そこで、大規模言語モデルはどのように機能するのかという疑問が生じます。この記事では、大規模言語モデルのメカニズムを探ります。また、注目すべき開発が進んでいる上位 10 の LLM を探ります。各 LLM には、異なる機能、特徴、およびアプリケーションがあります。
LLM (大規模言語モデル) は、大量の事前学習済みデータで学習された大規模なディープラーニング モデルです。トランスフォーマーは、自己注意機能を備えたエンコーダーとデコーダーであるニューラル ネットワークの集合です。エンコーダーは単語のシーケンスから意味を抽出し、デコーダーはシーケンス内の単語とフレーズの関係を理解します。トランスフォーマーは教師なしで学習できますが、より正確には、トランスフォーマーは自己学習を行うと表現します。これが、トランスフォーマーが基本的な文法、言語、知識を学習する方法です。
大規模言語モデルは非常に多用途です。LLM は、質問への回答からドキュメントの要約、言語の翻訳、さらには文章の作成まで、あらゆることを行うことができます。LML はコンテンツ作成に革命をもたらし、人々が検索エンジンや音声アシスタントとやり取りする方法を変えました。
最も一般的な用途の 1 つは、生成 AI としての使用です。質問されたり、回答が与えられたりすると、LLM はそれに応じてテキストを生成できます。たとえば、オープンソースの ChatGPT は、ユーザー入力に基づいてエッセイ、詩、その他の形式のテキストを作成できます。
大規模言語モデルは、人工知能 (AI) のサブセットである機械学習に基づいています。機械学習とは、プログラムに大量のデータを与え、人間の介入なしにそのデータの特徴を認識する方法をプログラムに教えるプロセスです。ディープラーニング LLM は、ディープラーニングと呼ばれる機械学習の形式を採用しています。基本的に、ディープラーニング モデルは人間の介入なしに違いを認識することを学習できますが、通常はモデル側で微調整が必要になります。
大規模言語モデル (LLM) のアーキテクチャは、モデル設計の目的、利用可能な計算リソース、LLM が実行する言語処理タスクなど、いくつかの要因によって決まります。一般的な LLM アーキテクチャは、フィードフォワード層、埋め込み層、注意層、内部に埋め込まれたテキストなど、さまざまな層で構成されています。これらの層は連携して予測を作成します。これにより、大規模言語モデルがどのように機能するかという疑問に答えることができました。
· モデルのサイズとパラメータ数
· 自己注意メカニズム
· 計算効率
· デコードと出力生成
トランスフォーマーベースの LLM モデルは、自然言語処理がタスクを実行する方法を変革しました。コンポーネントは次のものから構成されます。
入力埋め込み: 入力テキストは単語やサブワードなどの小さなチャンクに分割され、各チャンクは連続ベクトルに埋め込まれます。入力の意味データと構文データは、埋め込みステップでキャプチャされます。これは、大規模言語モデルがどのように機能するかを示すコンポーネントの 1 つです。
位置エンコーディング: トークンの順序はトランスフォーマーによってエンコードされません。これにより、モデルはトークンの順序を考慮しながらトークンを処理できます。トークンの位置に関する情報を提供するために、入力に位置エンコーディングを追加します。
エンコーダー: エンコーダーは、ニューラル ネットワーク アプローチを使用して入力テキストを分析します。エンコーダーは、テキスト データのコンテキストと意味を保持する複数の隠し状態を生成します。トランスフォーマー アーキテクチャは、複数のエンコーダー レイヤーで構成されています。各エンコーダー レイヤーは、自己注意メカニズムとフィードフォワード ニューラル ネットワークで構成されています。
自己注意メカニズム: 自己注意モデルの中心的なメカニズムは、入力シーケンス内のさまざまなトークンの重要性を調整する注意スコアを計算するプロセスです。これは、このユーティリティがコンテキスト依存の依存関係とトークン間の関係を把握するのに役立ちます。
フィードフォワード ニューラル ネットワーク: 各トークンに対して自己注意が実行され、次に各トークンに個別の入力を持つフィードフォワード ネットワークが適用されます。フィードフォワード ネットワーク戦略は、線形活性化関数をまったく使用しない完全接続レイヤーを使用することです。これにより、モデルはトークンに関連付けられた複雑な共同アクションを認識できるようになります。
デコーダー レイヤー: 一部のトランスフォーマー ベースのモデルには、エンコーダー レイヤーの上にデコーダー レイヤーがあります。デコーダー レイヤーでは、自己回帰生成が可能です。つまり、モデルは、以前に生成されたトークンに注意を払うことで、シーケンス出力を自動的に生成できます。
マルチヘッド アテンション: マルチヘッド アテンション アーキテクチャでは、学習したさまざまなアテンション ウェイトと組み合わせて自己アテンションが実行され、モデルがさまざまな関係をキャプチャし、入力シーケンスのさまざまな部分に同時に焦点を当てることができます。
レイヤーの正規化: トランスフォーマー アーキテクチャ内の各サブレイヤーまたはレイヤーの後に、レイヤーの正規化が適用されます。レイヤーの正規化は学習プロセスを安定させ、モデルが入力全体にわたって一般化するのに役立ちます。
出力層: これらはトランスフォーマー モデルの出力層です。出力層は目的によって異なります。たとえば、言語モデリングの場合、次のトークンの確率分布は通常、線形投影と SoftMax アクティベーションを使用して生成されます。
モデルの正確なアーキテクチャは、研究ごとに、またモデルごとに、どれが最適かに基づいて修正および最適化できます。複数のモデルが GPT、BERT、および T5 モデルを使用して同じタスクと目標を完了する可能性があり、より多くのコンポーネントや変更を含めることができます。さらに、マルチモーダル GPT-4 Vision または GPT-4-V があります。
Meta AI の次世代オープンソース言語モデル (LLM) は LLaMA 2 です。LLaMA 2 は、70 億から最大 700 億のパラメータを持つ、事前トレーニング済み、微調整済み、および微調整済みのモデルのセットです。Meta AI は 20 億のトークンで LLaMA 2 をトレーニングしました。これにより、LLaMA 1 のコンテキスト長が 2 倍になり、出力の品質と精度が LLaMA 1 と比較して向上しました。Meta AI の LLaMA 2 は、推論、コーディング、熟達度、および知識テストなどの多くの外部テストで同等のテストよりも優れています。
BLOOM は、BigScience が開発したオープンソースの優れた言語モデルです。BLOOM は、1,760 億のパラメータを使用して、46 の自然言語と 13 のプログラミング言語でテキストを生成します。BLOOM は ROOTS でトレーニングされました。これにより、BLOOM は世界最大のオープン多言語言語モデルになりました。BLOOM は、スペイン語、フランス語、アラビア語など、あまり知られていない多くの言語をトレーニングしています。
BERT は、Google が開発したオープンソースの言語学習モデル (LLM) であり、NLP に革命をもたらしました。BERT は、テキスト コンテキストの片側だけでなく両側から学習するという点でユニークです。他の LLM とは異なり、BERT はトランスフォーマー ベースのアーキテクチャを採用しており、これが独特です。入力トークンを隠し、コンテキストから実際の形式を予測します。この情報のやり取りにより、BERT は単語の意味をより深く理解できます。BERT には、微調整プロセスとともに出力レイヤーを 1 つだけ追加できる柔軟性があります。BERT は、質問応答や言語推論など、さまざまなタスクに適用できます。BERT は、TensorFlow や PyTorch と非常に互換性があり、他のフレームワークとも互換性があります。BERT は NLP コミュニティで非常によく知られています。
Meta AI Research の OPT-175B は、1,750 億のパラメータを持つオープンソースの LLM モデルです。このモデルは、1,800 億のトークンのデータセットでトレーニングされており、トレーニングのカーボン フットプリントがわずか 7 分の 1 で、GPT-3 モデルに匹敵するパフォーマンスを示しています。このモデルは、GPT-3 が定評のあるスケールとパフォーマンスを提供するように設計されています。OPT-175B は、優れたゼロ ショットおよび少数ショット機能を備えています。Megatron-LM を使用してトレーニングされています。
XGen-7B (70 億のパラメータ) は画期的な製品です。最大 8K トークンを処理できます。これは、一般的な 2K トークンの制限をはるかに上回ります。この幅広い範囲は、詳細な会話、長い形式の質問、複雑な要約など、長いストーリーを深く理解する必要があるタスクにとって重要です。トレーニング コンテンツを含む幅広いデータセットでモデルをトレーニングすることで、指示を深く理解できるようになります。
TII が開発した Falcon-180B は、1,800 億を超えるパラメータを持つ、世界最大かつ最も強力な大規模言語モデルの 1 つです。サイズとパワーの点では、Falcon-180B は多くの競合製品を上回っています。Falcon-180B は、一貫性があり文脈に適したテキストを生成できる、因果デコーダーのみのモデルと見なすことができます。これは多言語モデルであり、複数の言語 (英語、ドイツ語、スペイン語、フランス語) とその他のヨーロッパ言語をサポートできます。
Vicuna LLM は LMSYS によって作成され、主にチャット アシスタントとして使用されています。Vicuna は言語モデルとチャットボットの研究において重要な役割を果たしています。Vicuna は現実世界のインタラクションを反映したデータセットを提供し、モデルの関連性と使いやすさを向上させます。
Mistral 7B は、Mistral AI 社が開発した、無料でオープンソースの多層言語学習モデル (LLM) モデルです。このモデルは 73 億のパラメータを持ち、すべてのベンチマークで LLama 2 13B モデルを上回り、多くのベンチマークで LLama 1 34B モデルを上回ります。このモデルは、英語とコーディングの両方のタスクに適しています。
CodeGen は、プログラム合成用に設計された大規模なオープンソース LLM モデルです。CodeGen は AI の大きな前進です。複数のプログラミング言語でコードを理解して記述できるように設計されています。OpenAI の Codex などのクラス最高のモデルと競合します。CodeGen は自然言語とプログラミング言語の組み合わせでトレーニングされます。Pile は英語のテキストの記述に使用され、BigQuery は多言語データに使用され、BigPython は Python コードの記述に使用されます。
大規模言語モデルの動作は非常に複雑ですが、人間の介入なしに複雑なタスクを簡単に実行します。BERT、CodeGen、Llama 2、Mistral 7B、Vicuna、Falcon-180B、XGen-7B などの LLM モデルは、LLM 開発の最前線にあります。
大規模言語モデル (LLM と略されることが多い) は、トレーニングされた膨大な量のデータに基づいて人間のようなテキストを理解し、生成するように設計された高度な人工知能モデルです。
LLM はディープラーニングと呼ばれる技術、具体的にはトランスフォーマー アーキテクチャと呼ばれるディープ ニューラル ネットワークの一種を使用します。これらのモデルは、人間の言語のパターンと構造を理解するために大規模なデータセットでトレーニングされ、文脈に関連性があり一貫性のあるテキストを生成できます。
LLM は、書籍、記事、ウェブサイト、インターネットで入手可能なその他の書面コンテンツなど、さまざまなソースからのテキストで構成される大規模なデータセットでトレーニングされます。トレーニング データは前処理され、モデルに言語のニュアンスを教えるために使用されます。
LLM には、自然言語理解、テキスト生成、言語翻訳、感情分析など、幅広い用途があります。チャットボット、仮想アシスタント、コンテンツ生成、さらには研究や学術の現場でも使用されています。
人気のある LLM には、OpenAI の GPT シリーズ (GPT-3 など)、Google の BERT (Bidirectional Encoder Representations from Transformers)、Meta AI Research の OPT-175B、TII が開発した Falcon-180B などがあり、これらは LLM の最先端を行くものです。