大規模言語モデル (LLM) の台頭は変革をもたらし、自然言語処理と生成における人間のような優れた能力によって大きな可能性を示しています。しかし、LLM は偏見を示したり、誤った情報や幻覚を提供したり、有害なコンテンツを生成したり、さらには欺瞞的な行動に関与したりすることもわかっています。注目を集めた事件の例としては、Bard の最初のデモでの事実誤認、ChatGPT のフィッシング メール作成の巧妙さ、Microsoft の暴力的な画像生成などがあります。
LLM レッド チームは、体系的かつ信頼性の高い方法で脆弱性を積極的にテストし、モデル ビルダーが損害やリスクを事前に特定して、予期しない結果のリスクを軽減できるようにします。徹底したレッド チームは、LLM が大規模に展開される前に、LLM の安全性と信頼性を確保するための重要なステップです。
クラウドソーシング アプローチを使用したレッド チームは、LLM の安全性の課題に対処する上で独自の利点を提供します。
レッド チーム プロセスでは、資格のある個人のグループの多様な視点と専門知識を活用することで、特定の文化、人口統計、言語のコンテキストに固有の脆弱性を含む、より広範囲の潜在的な脆弱性を発見できます。この多様な視点により、LLM の動作が展開前に徹底的にテストおよび検証され、予期しない結果のリスクが軽減されます。
クラウドソーシング モデルでは、レッド チームの取り組みを効率的に拡張し、この分野の急速な進歩に追いつくペースで LLM をテストすることもできます。敵対的なプロンプトを含む既存のオープン ソース データセットはありますが、これらのデータセットは LLM のトレーニングによく使用されているため、これらのデータセットに対するパフォーマンスのベンチマークは、実際のパフォーマンスを正確に反映しない可能性があります。クラウドソーシングにより、新しいデータを作成して、これまで遭遇したことのない攻撃に対する LLM の応答をテストできます。これは、より代表的な尺度として機能します。また、貢献者は、観察されたパフォーマンスに基づいて、テスト プロセス中に攻撃戦略を調整できます。
ステップ 1: 定義。レッド チームの目標を明確に理解します。範囲内および範囲外の危害の種類や攻撃戦略の特定のパラメータを含む、テストの具体的な領域を定義します。
ステップ 2: 計画。AI フィードバック ツールを使用して、Appen の AI データ プラットフォームでレッド チーム ジョブを設定します。これにより、モデル エンドポイントとのライブ インタラクションが可能になります。経験豊富な LLM レッド チーム メンバーを採用し、必要に応じてドメインの専門知識や言語を網羅できるようにします。
ステップ 3: 管理。レッド チーム プロジェクトを調整し、体系的なテストとシミュレーション アクティビティを完了します。LLM プロジェクト マネージャーとスペシャリストは、結果と貢献者の洞察を監視して潜在的なリスク領域を明らかにし、これらの対象領域でさらに脆弱性の調査を実施します。
ステップ 4: レポート。レッド チーム レポートに調査結果を文書化します。これには通常、モデルの安全性を向上させるための改善を導く方法論、分析、調査結果、推奨事項が含まれます。
ステップ 1: 攻撃を設計します。ターゲットを検討します。モデルにどのような有害な応答を生成させたいですか? ターゲットは誰/何ですか?
ステップ 2: プロンプトを計画します。攻撃手法を選択します。例としては、プロンプト インジェクション、ロールプレイ、仮想化、サイドステップ、翻訳、口頭による説得などがあります。
ステップ 3: ライブ チャット テスト。敵対的なプロンプトを作成し、ライブ モデルに送信します。
ステップ 4: 応答に注釈を付ける。応答を評価し、有害性を評価します。モデルの応答には、AI チャットボットが生成するには不快、有害、物議を醸す、または不適切であると合理的な人が考える内容が含まれていますか? 害のレベルはどの程度ですか? モデルは代わりにどのような応答を返すことができたでしょうか?
Appen のレッド チーム演習方法論は、カスタマイズされたエンタープライズ LLM にも適用できます。エンタープライズ LLM レッド チームの目的には、次のような、意図されたエンタープライズ ユース ケースに対する、よりターゲットを絞ったシナリオ テストが含まれます。
LLM の安全性は、モデル構築者と採用者にとって依然として重要な課題です。AI コミュニティは、Appen と連携してクラウドソーシングを使用したレッドチーム演習を実施することで、人間参加型のアプローチでこの課題に対処し、安全性と責任ある AI 原則への最大限の取り組みが LLM の開発と展開の指針となるようにすることができます。
顧客は非常に重要であり、顧客は顧客に続きます。

元記事: https://www.appen.com/blog/large-language-model-red-teaming