建築家または建築家を目指す人が知っておくべき事柄を毎月まとめた概要です。

プロフェッショナルソフトウェア開発における知識とイノベーションの普及を促進

Git は、ソフトウェア開発におけるバージョン管理によく使われるツールです。複数の Git アカウントを使用することは珍しくありません。Git アカウントを正しく構成して切り替えることは困難です。この記事では、Git が提供するアカウント構成とその制限、およびプロジェクトの親ディレクトリの場所に基づいてアカウントを自動的に切り替えるソリューションについて説明します。
このポッドキャストでは、Michael Stiefel が Robert Hurlbut に、コードだけでなくアプリケーションを安全にする意味について話を聞きました。Robert は、Aquia の主席アプリケーション セキュリティ アーキテクト兼脅威モデリング リーダーであり、Cap TechU の博士課程の学生で、アプリケーション セキュリティ ポッドキャストの共同ホストでもあります。
Shreya Rajpal は、リスクを軽減し、LLM の安全性と効率性を高めるために設計されたオープンソース プラットフォームである Guardrails AI を紹介します。
このポッドキャストでは、Culture & Methods の主任編集者である Shane Hastie が、Dannielle Pearson とテクノロジーにおける批判的思考の重要性について話し合いました。
Ranjith Kumar は、グローバルな容量を持つサービス所有者に提示される抽象化と保証、数十の地域にわたるワークロードを管理するための設計と実装、さまざまな需要の分類とモデル化、さまざまな地域間で需要をシフトすることによるグローバルな容量管理の実現について説明します。
ソフトウェア開発の意思決定をレベルアップするための変革的な洞察を発見してください。限定オファーにはコード LIMITEDOFFERIDSBOSTON24 を使用してください。
上級開発者から実践的なアドバイスを得て、現在の開発課題を解決しましょう。限定オファーにはコード LIMITEDOFFERIDSMUNICH24 を使用してください。
注目すべき新たなトレンドを発見して、ソフトウェア スキルをレベルアップしましょう。今すぐ登録してください。
すべてのプロフェッショナルが知っておくべきすべてのトピック、テクノロジー、テクニックに関する月刊ガイド。無料で購読できます。

InfoQ ホームページ ニュース Google テキスト埋め込みモデル Gecko が大規模な言語モデルを抽出してパフォーマンスを向上

2024年4月30日 2分で読める

Gecko は、大規模な言語モデルから得た知識を汎用モデルに抽出して Google が作成したテキスト埋め込みモデルです。Gecko は、ドキュメント検索、意味的類似性、分類など、さまざまなタスクで斬新なアプローチを使用してトレーニングされており、汎用性と高いパフォーマンスを両立することを目指しています。
Gecko をトレーニングするために、Google は LLM から生成されたクエリを使用して、FRet (Few-shot Prompted Retrieval) と呼ばれる微調整データセットを作成しました。LLM は、クエリに関連付けられた否定的な文章と肯定的な文章の両方をマイニングするためにも使用されます。
より詳しく言うと、Google が Gecko で採用したアプローチは 2 つのステップで構成されており、それぞれのステップで LLM を利用して最初にデータを生成し、次にデータをランク付けします。
大量の(ラベル付けされていない)文章のコーパスから始めて、数回のプロンプト付き LLM を使用して、各文章に関連するタスクとクエリを生成します […]。次に、事前トレーニング済みの埋め込みモデルを使用して連結されたタスクとクエリを埋め込み、最も近い文章を取得し、LLM を使用して文章を再ランク付けし、LLM スコアに基づいて肯定的な文章と否定的な文章を取得します。
最初のステップでは、さまざまなタスクに関連付けられた (クエリ、パッセージ) ペアの多様なセットが生成されます。2 番目のステップでは、既存の埋め込みモデルを使用して、クエリに回答する上位 N 個の最も類似したパッセージを取得し、LLM を使用して各パッセージをランク付けして、正のターゲットと負のターゲットを生成します。
Google によれば、FRet の使用は、同社のアプローチを際立たせ、Gecko にパフォーマンス上の利点をもたらすものであり、具体的には LLM を使用して文章を再ランク付けする点にあります。
生成されたクエリに回答する最適な文章は元のソース文章と異なることが多いため、再ランク付けの手順は品質を向上させるための鍵となります。
その他の重要な要素としては、さまざまなタスクセットに対するクエリと文章の生成、およびトレーニング データの慎重なフォーマット化などがあります。
Google によると、Gecko は MTEB ベンチマークで同クラス最高のパフォーマンスを達成し、7 倍のモデルまたは 5 倍の高次元埋め込みに基づく他のシステムと競合します。スペクトルの下限では、256 次元埋め込みの Gecko は、768 埋め込みサイズの既存のすべてのエントリよりもパフォーマンスが優れており、コンパクトなテキスト埋め込みモデルとして非常に魅力的なオプションになっていると Google は述べています。
テキスト埋め込みは自然言語処理の基本的なツールであり、構造化されていないテキストを意味、セマンティクス、関係性に関連付けられたベクトル表現に変換するために使用され、ドキュメント検索、テキスト クラスタリング、セマンティック検索、類似性スコアリング、テキスト分類など、さまざまなアプリケーションで使用されます。
Google は現時点では Gecko をオープンソース化しておらず、どのように一般に公開されるのかもまだ明らかではない。

InfoQ の先週のコンテンツのまとめが毎週火曜日に配信されます。250,000 人以上のシニア開発者のコミュニティに参加してください。例を見る

InfoQ の先週のコンテンツのまとめが毎週火曜日に配信されます。250,000 人以上のシニア開発者のコミュニティに参加してください。例を見る

2024 年 6 月 24 日 – 25 日 | ボストン、マサチューセッツ州今日の重要な開発優先事項を明確にする実用的な洞察。InfoQ Dev Summit Boston は、InfoQ が主催する 2 日間のカンファレンスで、シニア ソフトウェア開発者が現在直面している最も重要な技術的決定に焦点を当てています。20 以上の技術講演を詳しく聞き、ジェネレーティブ AI、セキュリティ、最新の Web アプリケーションなどを扱うシニア ソフトウェア開発者から革新的な学びを得ましょう。今すぐ登録

InfoQ.com およびすべてのコンテンツの著作権は © 2006-2024 C4Media Inc. に帰属します。プライバシー通知、利用規約、Cookie ポリシー

元記事: https://www.infoq.com/news/2024/04/google-gecko-text-embeddings/