巨大な LLM コンテキストウィンドウは RAG の終焉を意味するのか?

ご来場いただきありがとうございます。月曜日から金曜日まで、TNS の最高のコンテンツが届き、最新ニュースやゲームでのトップの座を維持できます。

受信トレイで確認メールを確認し、設定を調整したり、追加のグループに参加したりすることができます。

お気に入りのソーシャルメディアネットワークで TNS をフォローしてください。

LinkedIn で TNS のフォロワーになりましょう。

最初の TNS ニュースレターを待つ間に、最新の特集記事やトレンド記事をチェックしてください。

生成 AI (GenAI) の反復速度は飛躍的に向上しています。その結果、コンテキストウィンドウ (大規模言語モデル (LLM) が応答を生成するために一度に使用できるトークンの数) も急速に拡大しています。
2024 年 2 月にリリースされた Google Gemini 1.5 Pro は、これまでで最長のコンテキストウィンドウの記録を樹立しました。100 万トークンは、1 時間のビデオまたは 70 万語に相当します。長いコンテキストの処理における Gemini の優れたパフォーマンスにより、「検索拡張生成 (RAG) は死んだ」と宣言する人もいました。LLM はすでに非常に強力なリトリーバーであるため、なぜ弱いリトリーバーを構築し、チャンキング、埋め込み、インデックス作成などの RAG 関連の問題に対処するのに時間を費やすのでしょうか。
コンテキストウィンドウの拡大により、次のような議論が始まりました。これらの改善により、RAG はまだ必要なのか? それとも、すぐに時代遅れになるのか?
LLM は、機械が理解し達成できる限界を常に押し広げていますが、目に見えないデータに正確に応答したり、最新情報を把握したりすることが難しいなどの問題によって制限されてきました。これらの問題により幻覚が発生し、RAG はこれに対処するために開発されました。
RAG は、LLM のパワーと外部の知識ソースを組み合わせて、より情報に基づいた正確な応答を生成します。ユーザークエリを受信すると、RAG システムは最初にテキストを処理して、そのコンテキストと意図を理解します。次に、ナレッジベースからユーザーのクエリに関連するデータを取得し、クエリとともにコンテキストとして LLM に渡します。LLM にはコンテキスト制限 (モデルが一度に考慮または理解できるテキストの量) があるため、ナレッジベース全体を渡すのではなく、関連するデータのみを渡します。
まず、クエリは埋め込みモデルを使用してベクトル埋め込みに変換されます。次に、この埋め込みベクトルがドキュメントベクトルのデータベースと比較され、最も関連性の高いドキュメントが特定されます。これらの関連ドキュメントが取得され、元のクエリと組み合わされて、LLM がより正確な応答を生成するための豊富なコンテキストが提供されます。このハイブリッドアプローチにより、モデルは外部ソースからの最新情報を使用できるようになり、LLM はより情報に基づいた正確な応答を生成できるようになります。
LLM のコンテキストウィンドウの継続的な増加は、これらのモデルが応答を取り込んで生成する方法に直接影響します。LLM が一度に処理できるテキストの量を増やすことで、これらの拡張されたコンテキストウィンドウは、より包括的な物語や複雑なアイデアを理解するモデルの能力を高め、生成される応答の全体的な品質と関連性を向上させます。これにより、LLM の長いテキストを追跡する能力が向上し、コンテキストとその詳細をより効果的に把握できるようになります。その結果、LLM が広範なコンテキストの処理と統合に習熟するにつれて、応答の精度と関連性を高めるための RAG への依存は低下する可能性があります。
RAG は、類似度スコアに基づいて関連ドキュメントをコンテキストとして提供することで、モデルの能力を向上させます。ただし、RAG はコンテキストをリアルタイムで適応または学習しません。代わりに、ユーザーのクエリに類似していると思われるドキュメントを取得しますが、これは必ずしもコンテキストに最も適しているわけではなく、応答の精度が低下する可能性があります。
一方、言語モデルの長いコンテキストウィンドウを利用してすべてのデータを詰め込むことで、LLM のアテンションメカニズムはより優れた回答を生成できます。言語モデル内のアテンションメカニズムは、提供されたコンテキストのさまざまな部分に焦点を当てて、正確な応答を生成します。さらに、このメカニズムは微調整できます。LLM モデルを調整して損失を減らすことで、モデルは徐々に改善され、より正確でコンテキストに適した応答が得られます。
LLM 応答を強化するためにナレッジベースから情報を取得する場合、コンテキストウィンドウに完全で関連性の高いデータを見つけるのは常に困難です。取得したデータがユーザーのクエリに完全に答えているかどうかについては、常に不確実性があります。この状況では、選択された情報が十分でなく、ユーザーの実際の意図や会話のコンテキストとうまく一致していない場合、非効率性やエラーが発生する可能性があります。
従来、LLM は処理できるコンテキストの量に制限があったため、大量の情報を同時に処理することができませんでした。しかし、新たに強化された機能により、大量のデータを直接処理できるようになり、クエリごとに個別のストレージを用意する必要がなくなりました。これにより、アーキテクチャが合理化され、外部データベースへのアクセスが高速化され、AI の効率が向上します。
LLM の拡張されたコンテキストウィンドウは、モデルに深い洞察を提供する可能性がありますが、計算コストや効率性が高くなるなどの課題ももたらします。RAG は、最も関連性の高い情報のみを選択的に取得することでこれらの課題に対処し、パフォーマンスと精度を最適化します。
データが固定長のドキュメントに分割され、類似性に基づいて取得される単純な RAG が衰退しつつあることは間違いありません。しかし、複雑な RAG システムは存続しているだけでなく、大幅に進化しています。
複雑な RAG には、クエリの書き換え、データのクリーニング、リフレクション、最適化されたベクトル検索、グラフ検索、再ランク付け、より洗練されたチャンキング手法など、より幅広い機能が含まれています。これらの機能強化により、RAG の機能が改良されるだけでなく、その機能も拡張されます。
LLM のコンテキストウィンドウを拡張して数百万のトークンを含めることは有望に見えますが、時間、効率、コストなどのいくつかの要因により、実際の実装は依然として疑問視されています。
RAG は、これら 3 つの要素をそれぞれ直接最適化します。類似または関連するドキュメントのみをコンテキストとして渡すことで (すべてを詰め込むのではなく)、LLM は情報をより迅速に処理します。これにより、レイテンシが短縮されるだけでなく、応答の品質が向上し、コストが削減されます。
より大きなコンテキストウィンドウを使用する以外に、RAG のもう 1 つの代替手段は微調整です。ただし、微調整はコストがかかり、面倒です。新しい情報が入ってくるたびに LLM を更新して最新の状態に保つのは困難です。微調整に関するその他の問題は次のとおりです。
その他の問題としては、データの収集、品質が十分であることの確認、モデルの展開などがあります。
以下は、RAG と微調整またはロングコンテキストウィンドウ手法の比較概要です (後者の 2 つは類似した特性を持っているため、この表ではこれらを組み合わせました)。コスト、データタイムライン、スケーラビリティなどの重要な側面を強調しています。
最先端の LLM は数百万のトークンを同時に処理できますが、データ構造の複雑さと絶え間ない進化により、LLM が異種の企業データを効果的に管理することは困難になっています。RAG はこれらの課題に対処しますが、検索精度はエンドツーエンドのパフォーマンスの大きなボトルネックのままです。LLM の大きなコンテキストウィンドウであろうと RAG であろうと、目標はビッグデータを最大限に活用し、大規模データ処理の高効率を確保することです。
MyScaleDB のような高度な SQL ベクターデータベースを使用して LLM をビッグデータと統合すると、LLM の有効性が高まり、ビッグデータからのインテリジェンス抽出が向上します。さらに、モデルの幻覚を軽減し、データの透明性を高め、信頼性を向上させます。ClickHouse 上に構築されたオープンソースの SQL ベクターデータベースである MyScaleDB は、大規模な AI/RAG アプリケーション向けにカスタマイズされています。ClickHouse をベースとして活用し、独自の MSTG アルゴリズムを備えた MyScaleDB は、他のベクターデータベースと比較して、大規模データの管理において優れたパフォーマンスを発揮します。
LLM テクノロジーは世界を変えつつあり、長期記憶の重要性は今後も続くでしょう。AI アプリケーションの開発者は、クエリの品質とコストの完璧なバランスを常に追求しています。大企業が生成 AI を本番環境に導入する場合、コストを抑えながら最高の応答品質を維持する必要があります。RAG とベクターデータベースは、この目標を達成するための重要なツールであり続けます。
GitHub で MyScaleDB を詳しく調べたり、Discord で LLM や RAG についてさらに詳しく話し合ったりすることもできます。

コミュニティが作成したロードマップ、記事、リソース、開発者向けのジャーニーは、あなたの進路の選択とキャリアの成長に役立ちます。

元記事: https://thenewstack.io/do-enormous-llm-context-windows-spell-the-end-of-rag/

巨大な LLM コンテキストウィンドウは RAG の終焉を意味するのか? – The New Stack

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY