ご来場いただきありがとうございます。月曜日から金曜日まで、TNS の最高のコンテンツが届き、最新ニュースやゲームでのトップの座を維持できます。
受信トレイで確認メールを確認し、設定を調整したり、追加のグループに参加したりすることができます。
お気に入りのソーシャル メディア ネットワークで TNS をフォローしてください。
LinkedIn で TNS のフォロワーになりましょう。
最初の TNS ニュースレターを待つ間に、最新の特集記事やトレンド記事をチェックしてください。
GPT-4、Gemini 1.5、Claude 3 などの強力な大規模言語モデル (LLM) の登場は、AI とテクノロジーのゲームチェンジャーとなっています。100 万を超えるトークンを処理できるモデルもあり、長いコンテキストを処理できる能力は本当に印象的です。ただし、
検索拡張生成 (RAG) はこれらの問題に対処するのに役立ちますが、検索精度はエンドツーエンドのパフォーマンスの大きなボトルネックです。解決策の 1 つは、高度な SQL ベクター データベースを介して LLM とビッグ データを統合することです。LLM とビッグ データ間のこのような相乗効果により、LLM がより効果的になるだけでなく、ビッグ データからより優れたインテリジェンスを取得できるようになります。さらに、データの透明性と信頼性を提供しながら、モデルの幻覚をさらに軽減します。
RAG システムの基盤として、ベクター データベースは過去 1 年間で急速に発展しました。ベクター データベースは、一般的に、専用ベクター データベース、キーワードおよびベクター検索システム、SQL ベクター データベースの 3 つのタイプに分類できます。それぞれに利点と制限があります。
一部のベクター データベース (Pinecone、Weaviate、Milvus など) は、最初からベクター検索専用に設計されています。この分野では優れたパフォーマンスを発揮しますが、一般的なデータ管理機能はやや制限されています。
Elasticsearch や OpenSearch に代表されるこれらのシステムは、包括的なキーワードベースの検索機能を備えているため、実稼働環境で広く使用されています。ただし、かなりのシステム リソースを消費し、キーワードとベクトルのハイブリッド クエリの精度とパフォーマンスが不十分な場合がよくあります。
SQL ベクター データベースは、従来の SQL データベースの機能とベクター データベースの機能を組み合わせた特殊なタイプのデータベースです。SQL を利用して高次元のベクトルを効率的に保存およびクエリする機能を提供します。
上の図には、2 つの主要な SQL ベクトル データベース (pgvector と MyScaleDB) が示されています。pgvector は、PostgreSQL のベクトル検索プラグインです。使い始めるのが簡単で、小さなデータ セットの管理に便利です。ただし、Postgres の行ストレージの欠点とベクトル アルゴリズムの制限により、pgvector は大規模で複雑なベクトル クエリの精度とパフォーマンスが低くなる傾向があります。
MyScaleDB は、ClickHouse (列型ストレージ SQL データベース) 上に構築されたオープン ソースの SQL ベクター データベースです。GenAI アプリケーションに高性能でコスト効率の高いデータ基盤を提供するように設計されています。MyScaleDB は、全体的なパフォーマンスとコスト効率において、特殊なベクター データベースを上回る初の SQL ベクター データベースでもあります。
NoSQL やビッグ データ テクノロジーの出現にもかかわらず、SQL の誕生から半世紀が経った今でも、SQL データベースはデータ管理市場を支配し続けています。Elasticsearch や Spark などのシステムにも SQL インターフェイスが追加されています。MyScaleDB は SQL をサポートしているため、ベクトル検索と分析で高いパフォーマンスを実現します。
実際の AI アプリケーションでは、SQL とベクトルを統合することで、データ モデリングの柔軟性が向上し、開発が簡素化されます。たとえば、大規模な学術製品では、膨大な科学文献データに対するインテリジェントな Q&A に MyScaleDB を使用しています。メインの SQL スキーマには 10 を超えるテーブルが含まれており、そのうちのいくつかはベクトルとキーワード ベースの逆インデックス構造を持ち、主キーと外部キーで接続されています。システムは、構造化データ、ベクトル データ、キーワード データを含む複雑なクエリや、複数のテーブルにまたがる結合クエリを処理します。これは、特殊なベクトル データベースにとっては困難なタスクであり、反復処理の遅延、非効率的なクエリ、およびメンテナンス コストの増加につながることがよくあります。
MyScale がサポートする大規模な学術製品の主な SQL ベクトル データベース スキーマ (太字の列には、ベクトル インデックスまたは逆インデックスが関連付けられています)。
実際の RAG システムでは、検索精度 (および関連するパフォーマンスのボトルネック) を克服するには、構造化データ、ベクトル データ、キーワード データのクエリを効率的に組み合わせる必要があります。
例えば、金融アプリケーションでは、ユーザーがドキュメントデータベースに「
ただし、会社名や年などの情報は、ドキュメントのメタデータとして取得できることが多いです。WHERE year=2023 AND company LIKE "%
従来のデータベース製品は、LLM 時代のベクター クエリの重要性を認識し、ベクター機能の追加を開始しましたが、組み合わせたクエリの精度には依然として大きな問題があります。たとえば、フィルター検索シナリオでは、フィルタリング比率が 0.1 の場合、Elasticsearch のクエリ/秒 (QPS) レートは約 5 に低下し、pgvector プラグインを使用した PostgreSQL では、フィルタリング比率が 0.01 の場合、精度は約 50% にしかなりません。これは、クエリの精度とパフォーマンスが不安定で、その使用が大きく制限されることを示しています。対照的に、SQL ベクター データベース MyScale は、さまざまなフィルタリング比率のシナリオで 100 を超える QPS と 98% の精度を達成し、コストは pgvector の 36%、Elasticsearch の 12% です。
機械学習とビッグデータは、Web アプリやモバイル アプリの成功の原動力となっています。しかし、LLM の台頭により、私たちはビッグデータ ソリューションを備えた新しいタイプの LLM の構築に方向転換しています。これらのソリューションは、大規模データ処理、知識検索、可観測性、データ分析、少量学習などの主要な機能を実現します。データと AI の間に閉ループを作成し、次世代の LLM + ビッグデータ エージェント プラットフォームの基盤を形成します。このパラダイム シフトは、科学研究、金融、産業、医療などの分野ですでに進行しています。
技術の急速な発展により、今後 5 ~ 10 年以内に何らかの形の人工汎用知能 (AGI) が登場すると予想されています。この問題に関して、静的な仮想モデルが必要なのか、それともより包括的な別のソリューションが必要なのかを問わなければなりません。データは、LLM、ユーザー、そして世界をつなぐ重要なリンクであることは間違いありません。私たちのビジョンは、LLM とビッグ データを有機的に統合し、より専門的でリアルタイムかつ協調的な AI システムを構築することです。このシステムは、人間の温かさと価値に満ちています。
GitHub の MyScaleDB リポジトリを探索し、SQL とベクトルを活用して革新的な本番レベルの AI アプリケーションを構築してください。
コミュニティが作成したロードマップ、記事、リソース、開発者向けのジャーニーは、あなたの進路の選択とキャリアの成長に役立ちます。
元記事: https://thenewstack.io/sql-vector-databases-are-shaping-the-new-llm-and-big-data-paradigm/