SQL ベクトルデータベースが新しい LLM とビッグデータパラダイムを形成する

ご来場いただきありがとうございます。月曜日から金曜日まで、TNS の最高のコンテンツが届き、最新ニュースやゲームでのトップの座を維持できます。

受信トレイで確認メールを確認し、設定を調整したり、追加のグループに参加したりすることができます。

お気に入りのソーシャルメディアネットワークで TNS をフォローしてください。

LinkedIn で TNS のフォロワーになりましょう。

最初の TNS ニュースレターを待つ間に、最新の特集記事やトレンド記事をチェックしてください。

GPT-4、Gemini 1.5、Claude 3 などの強力な大規模言語モデル (LLM) の登場は、AI とテクノロジーのゲームチェンジャーとなっています。100 万を超えるトークンを処理できるモデルもあり、長いコンテキストを処理できる能力は本当に印象的です。ただし、
検索拡張生成 (RAG) はこれらの問題に対処するのに役立ちますが、検索精度はエンドツーエンドのパフォーマンスの大きなボトルネックです。解決策の 1 つは、高度な SQL ベクターデータベースを介して LLM とビッグデータを統合することです。LLM とビッグデータ間のこのような相乗効果により、LLM がより効果的になるだけでなく、ビッグデータからより優れたインテリジェンスを取得できるようになります。さらに、データの透明性と信頼性を提供しながら、モデルの幻覚をさらに軽減します。
RAG システムの基盤として、ベクターデータベースは過去 1 年間で急速に発展しました。ベクターデータベースは、一般的に、専用ベクターデータベース、キーワードおよびベクター検索システム、SQL ベクターデータベースの 3 つのタイプに分類できます。それぞれに利点と制限があります。
一部のベクターデータベース (Pinecone、Weaviate、Milvus など) は、最初からベクター検索専用に設計されています。この分野では優れたパフォーマンスを発揮しますが、一般的なデータ管理機能はやや制限されています。
Elasticsearch や OpenSearch に代表されるこれらのシステムは、包括的なキーワードベースの検索機能を備えているため、実稼働環境で広く使用されています。ただし、かなりのシステムリソースを消費し、キーワードとベクトルのハイブリッドクエリの精度とパフォーマンスが不十分な場合がよくあります。
SQL ベクターデータベースは、従来の SQL データベースの機能とベクターデータベースの機能を組み合わせた特殊なタイプのデータベースです。SQL を利用して高次元のベクトルを効率的に保存およびクエリする機能を提供します。
上の図には、2 つの主要な SQL ベクトルデータベース、pgvector と MyScaleDB が示されています。pgvector は、PostgreSQL のベクトル検索プラグインです。使い始めるのが簡単で、小さなデータセットの管理に便利です。ただし、Postgres の行ストレージの欠点とベクトルアルゴリズムの制限により、pgvector は大規模で複雑なベクトルクエリの精度とパフォーマンスが低くなる傾向があります。
MyScaleDB は、ClickHouse (列型ストレージ SQL データベース) 上に構築されたオープンソースの SQL ベクターデータベースです。GenAI アプリケーションに高性能でコスト効率の高いデータ基盤を提供するように設計されています。MyScaleDB は、全体的なパフォーマンスとコスト効率において、特殊なベクターデータベースを上回る初の SQL ベクターデータベースでもあります。
NoSQL やビッグデータテクノロジーの出現にもかかわらず、SQL の誕生から半世紀が経った今でも、SQL データベースはデータ管理市場を支配し続けています。Elasticsearch や Spark などのシステムにも SQL インターフェイスが追加されています。MyScaleDB は SQL をサポートしているため、ベクトル検索と分析で高いパフォーマンスを実現します。
実際の AI アプリケーションでは、SQL とベクトルを統合することで、データモデリングの柔軟性が向上し、開発が簡素化されます。たとえば、大規模な学術製品では、膨大な科学文献データに対するインテリジェントな Q&A に MyScaleDB を使用しています。メインの SQL スキーマには 10 を超えるテーブルが含まれており、そのうちのいくつかはベクトルとキーワードベースの逆インデックス構造を持ち、主キーと外部キーで接続されています。システムは、構造化データ、ベクトルデータ、キーワードデータを含む複雑なクエリや、複数のテーブルにまたがる結合クエリを処理します。これは、特殊なベクトルデータベースにとっては困難なタスクであり、反復処理の遅延、非効率的なクエリ、およびメンテナンスコストの増加につながることがよくあります。
MyScale がサポートする大規模な学術製品の主な SQL ベクトルデータベーススキーマ (太字の列には、ベクトルインデックスまたは逆インデックスが関連付けられています)。
実際の RAG システムでは、検索精度 (および関連するパフォーマンスのボトルネック) を克服するには、構造化データ、ベクトルデータ、キーワードデータのクエリを効率的に組み合わせる必要があります。
例えば、金融アプリケーションでは、ユーザーがドキュメントデータベースに「 2023年に世界で何が起こるか？「「2023」や「2023」は、セマンティックベクトルで捕捉されないか、連続したテキストに存在しない可能性があります。データベース全体のベクトル検索では、ノイズの多い結果が生成され、最終的な精度が低下する可能性があります。
ただし、会社名や年などの情報は、ドキュメントのメタデータとして取得できることが多いです。WHERE year=2023 AND company LIKE "% %" をベクトルクエリのフィルタリング条件として使用すると、関連情報を正確に特定できるため、システムの信頼性が大幅に向上します。金融、製造、研究の分野では、SQL ベクトルデータモデリングと共同クエリによって精度が 60% から 90% に向上することが確認されています。
従来のデータベース製品は、LLM 時代のベクタークエリの重要性を認識し、ベクター機能の追加を開始しましたが、組み合わせたクエリの精度には依然として大きな問題があります。たとえば、フィルター検索シナリオでは、フィルタリング比率が 0.1 の場合、Elasticsearch のクエリ/秒 (QPS) レートは約 5 に低下し、pgvector プラグインを使用した PostgreSQL では、フィルタリング比率が 0.01 の場合、精度は約 50% にしかなりません。これは、クエリの精度とパフォーマンスが不安定で、その使用が大きく制限されることを示しています。対照的に、SQL ベクターデータベース MyScale は、さまざまなフィルタリング比率のシナリオで 100 を超える QPS と 98% の精度を達成し、コストは pgvector の 36%、Elasticsearch の 12% です。
機械学習とビッグデータは、Web アプリやモバイルアプリの成功の原動力となっています。しかし、LLM の台頭により、私たちはビッグデータソリューションを備えた新しいタイプの LLM の構築に方向転換しています。これらのソリューションは、大規模データ処理、知識検索、可観測性、データ分析、少量学習などの主要な機能を実現します。データと AI の間に閉ループを作成し、次世代の LLM + ビッグデータエージェントプラットフォームの基盤を形成します。このパラダイムシフトは、科学研究、金融、産業、医療などの分野ですでに進行しています。
技術の急速な発展により、今後 5 ～ 10 年以内に何らかの形の人工汎用知能 (AGI) が登場すると予想されています。この問題に関して、静的な仮想モデルが必要なのか、それともより包括的な別のソリューションが必要なのかを問わなければなりません。データは、LLM、ユーザー、そして世界をつなぐ重要なリンクであることは間違いありません。私たちのビジョンは、LLM とビッグデータを有機的に統合し、より専門的でリアルタイムかつ協調的な AI システムを構築することです。このシステムは、人間の温かさと価値に満ちています。
GitHub の MyScaleDB リポジトリを探索し、SQL とベクトルを活用して革新的な本番レベルの AI アプリケーションを構築してください。

コミュニティが作成したロードマップ、記事、リソース、開発者向けのジャーニーは、あなたの進路の選択とキャリアの成長に役立ちます。

元記事: https://translate.google.com/translate?sl=auto&tl=ja&hl=ja&u=https://thenewstack.io/sql-vector-databases-are-shaping-the-new-llm-and-big-data-paradigm/

SQL ベクトルデータベースが新しい LLM とビッグデータパラダイムを形成する – The New Stack

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY