ご来場いただきありがとうございます。月曜日から金曜日まで、TNS の最高のコンテンツが届き、最新ニュースやゲームでのトップの座を維持できます。

受信トレイで確認メールを確認し、設定を調整したり、追加のグループに参加したりすることができます。

お気に入りのソーシャル メディア ネットワークで TNS をフォローしてください。

LinkedIn で TNS のフォロワーになりましょう。

最初の TNS ニュースレターを待つ間に、最新の特集記事やトレンド記事をチェックしてください。

生成 AI (GenAI) の反復速度は飛躍的に向上しています。その結果、コンテキスト ウィンドウ (大規模言語モデル (LLM) が応答を生成するために一度に使用できるトークンの数) も急速に拡大しています。
2024 年 2 月にリリースされた Google Gemini 1.5 Pro は、これまでで最長のコンテキスト ウィンドウの記録を樹立しました。100 万トークンは、1 時間のビデオまたは 70 万語に相当します。長いコンテキストの処理における Gemini の優れたパフォーマンスにより、「検索拡張生成 (RAG) は死んだ」と宣言する人もいました。LLM はすでに非常に強力なリトリーバーであるため、なぜ弱いリトリーバーを構築し、チャンキング、埋め込み、インデックス作成などの RAG 関連の問題に対処するのに時間を費やすのでしょうか。
コンテキスト ウィンドウの拡大により、次のような議論が始まりました。これらの改善により、RAG はまだ必要なのか? それとも、すぐに時代遅れになるのか?
LLM は、機械が理解し達成できる限界を常に押し広げていますが、目に見えないデータに正確に応答したり、最新情報を把握したりすることが難しいなどの問題によって制限されてきました。これらの問題により幻覚が発生し、RAG はこれに対処するために開発されました。
RAG は、LLM のパワーと外部の知識ソースを組み合わせて、より情報に基づいた正確な応答を生成します。ユーザー クエリを受信すると、RAG システムは最初にテキストを処理して、そのコンテキストと意図を理解します。次に、ナレッジ ベースからユーザーのクエリに関連するデータを取得し、クエリとともにコンテキストとして LLM に渡します。LLM にはコンテキスト制限 (モデルが一度に考慮または理解できるテキストの量) があるため、ナレッジ ベース全体を渡すのではなく、関連するデータのみを渡します。
まず、クエリは埋め込みモデルを使用してベクトル埋め込みに変換されます。次に、この埋め込みベクトルがドキュメント ベクトルのデータベースと比較され、最も関連性の高いドキュメントが特定されます。これらの関連ドキュメントが取得され、元のクエリと組み合わされて、LLM がより正確な応答を生成するための豊富なコンテキストが提供されます。このハイブリッド アプローチにより、モデルは外部ソースからの最新情報を使用できるようになり、LLM はより情報に基づいた正確な応答を生成できるようになります。
LLM のコンテキスト ウィンドウの継続的な増加は、これらのモデルが応答を取り込んで生成する方法に直接影響します。LLM が一度に処理できるテキストの量を増やすことで、これらの拡張されたコンテキスト ウィンドウは、より包括的な物語や複雑なアイデアを理解するモデルの能力を高め、生成される応答の全体的な品質と関連性を向上させます。これにより、LLM の長いテキストを追跡する能力が向上し、コンテキストとその詳細をより効果的に把握できるようになります。その結果、LLM が広範なコンテキストの処理と統合に習熟するにつれて、応答の精度と関連性を高めるための RAG への依存は低下する可能性があります。
RAG は、類似度スコアに基づいて関連ドキュメントをコンテキストとして提供することで、モデルの能力を向上させます。ただし、RAG はコンテキストをリアルタイムで適応または学習しません。代わりに、ユーザーのクエリに類似していると思われるドキュメントを取得しますが、これは必ずしもコンテキストに最も適しているわけではなく、応答の精度が低下する可能性があります。
一方、言語モデルの長いコンテキスト ウィンドウを利用してすべてのデータを詰め込むことで、LLM のアテンション メカニズムはより優れた回答を生成できます。言語モデル内のアテンション メカニズムは、提供されたコンテキストのさまざまな部分に焦点を当てて、正確な応答を生成します。さらに、このメカニズムは微調整できます。LLM モデルを調整して損失を減らすことで、モデルは徐々に改善され、より正確でコンテキストに適した応答が得られます。
LLM 応答を強化するためにナレッジ ベースから情報を取得する場合、コンテキスト ウィンドウに完全で関連性の高いデータを見つけるのは常に困難です。取得したデータがユーザーのクエリに完全に答えているかどうかについては、常に不確実性があります。この状況では、選択された情報が十分でなく、ユーザーの実際の意図や会話のコンテキストとうまく一致していない場合、非効率性やエラーが発生する可能性があります。
従来、LLM は処理できるコンテキストの量に制限があったため、大量の情報を同時に処理することができませんでした。しかし、新たに強化された機能により、大量のデータを直接処理できるようになり、クエリごとに個別のストレージを用意する必要がなくなりました。これにより、アーキテクチャが合理化され、外部データベースへのアクセスが高速化され、AI の効率が向上します。
LLM の拡張されたコンテキスト ウィンドウは、モデルに深い洞察を提供する可能性がありますが、計算コストや効率性が高くなるなどの課題ももたらします。RAG は、最も関連性の高い情報のみを選択的に取得することでこれらの課題に対処し、パフォーマンスと精度を最適化します。
データが固定長のドキュメントに分割され、類似性に基づいて取得される単純な RAG が衰退しつつあることは間違いありません。しかし、複雑な RAG システムは存続しているだけでなく、大幅に進化しています。
複雑な RAG には、クエリの書き換え、データのクリーニング、リフレクション、最適化されたベクトル検索、グラフ検索、再ランク付け、より洗練されたチャンキング手法など、より幅広い機能が含まれています。これらの機能強化により、RAG の機能が改良されるだけでなく、その機能も拡張されます。
LLM のコンテキスト ウィンドウを拡張して数百万のトークンを含めることは有望に見えますが、時間、効率、コストなどのいくつかの要因により、実際の実装は依然として疑問視されています。
RAG は、これら 3 つの要素をそれぞれ直接最適化します。類似または関連するドキュメントのみをコンテキストとして渡すことで (すべてを詰め込むのではなく)、LLM は情報をより迅速に処理します。これにより、レイテンシが短縮されるだけでなく、応答の品質が向上し、コストが削減されます。
より大きなコンテキスト ウィンドウを使用する以外に、RAG のもう 1 つの代替手段は微調整です。ただし、微調整はコストがかかり、面倒です。新しい情報が入ってくるたびに LLM を更新して最新の状態に保つのは困難です。微調整に関するその他の問題は次のとおりです。
その他の問題としては、データの収集、品質が十分であることの確認、モデルの展開などがあります。
以下は、RAG と微調整またはロング コンテキスト ウィンドウ手法の比較概要です (後者の 2 つは類似した特性を持っているため、この表ではこれらを組み合わせました)。コスト、データ タイムライン、スケーラビリティなどの重要な側面を強調しています。
最先端の LLM は数百万のトークンを同時に処理できますが、データ構造の複雑さと絶え間ない進化により、LLM が異種の企業データを効果的に管理することは困難になっています。RAG はこれらの課題に対処しますが、検索精度はエンドツーエンドのパフォーマンスの大きなボトルネックのままです。LLM の大きなコンテキスト ウィンドウであろうと RAG であろうと、目標はビッグ データを最大限に活用し、大規模データ処理の高効率を確保することです。
MyScaleDB のような高度な SQL ベクター データベースを使用して LLM をビッグ データと統合すると、LLM の有効性が高まり、ビッグ データからのインテリジェンス抽出が向上します。さらに、モデルの幻覚を軽減し、データの透明性を高め、信頼性を向上させます。ClickHouse 上に構築されたオープン ソースの SQL ベクター データベースである MyScaleDB は、大規模な AI/RAG アプリケーション向けにカスタマイズされています。ClickHouse をベースとして活用し、独自の MSTG アルゴリズムを備えた MyScaleDB は、他のベクター データベースと比較して、大規模データの管理において優れたパフォーマンスを発揮します。
LLM テクノロジーは世界を変えつつあり、長期記憶の重要性は今後も続くでしょう。AI アプリケーションの開発者は、クエリの品質とコストの完璧なバランスを常に追求しています。大企業が生成 AI を本番環境に導入する場合、コストを抑えながら最高の応答品質を維持する必要があります。RAG とベクター データベースは、この目標を達成するための重要なツールであり続けます。
GitHub で MyScaleDB を詳しく調べたり、Discord で LLM や RAG についてさらに詳しく話し合ったりすることもできます。

コミュニティが作成したロードマップ、記事、リソース、開発者向けのジャーニーは、あなたの進路の選択とキャリアの成長に役立ちます。

元記事: https://thenewstack.io/do-enormous-llm-context-windows-spell-the-end-of-rag/