責任ある AI の開発は簡単なことではありません。一方では、組織は技術の進歩の最前線に留まるよう努めています。他方では、倫理基準と規制要件を厳格に遵守する必要があります。
急速なイノベーションと規制要件の増大との間の微妙なバランスを取ろうとする組織は、標準化された開発アプローチを採用し、ますます競争が激化する市場でコンプライアンスと競争力を維持する必要があります。
多くの企業はすでに、(近々施行される)サイバーレジリエンス法やデータ法など、ますます複雑化する規制の解読に苦慮しています。
最近の EU AI 法は AI の安全性に向けて大きな一歩を踏み出したが、同時に新たな官僚機構も生み出した。欧州議会は、管理要件を簡素化し、法的に曖昧な部分を明確化することで、同法の遵守を容易にするよう求めている。さらに、AI 研究への資金提供を増やし、中小企業が法律を理解できるように支援してほしいという要望もある。同法にこうした調整を加えなければ、EU はこの分野の先駆者としての地位を確立できず、米国や中国に負けてしまうのではないかと真剣に懸念されている。
英国政府は、より革新に賛成する姿勢をとっています。政府の AI ホワイト ペーパーでは、新しい法律を導入するのではなく、安全性、公平性、透明性、説明責任、ユーザーの権利に重点を置き、既存の規制当局が管轄区域内で適用する 5 つの高レベルの原則を提案しています。これらの幅広い原則は、EU の法律ほど規範的ではありません。実際、これらの原則は、IT セキュリティ テスト手順ですでに信頼されている要素であるレッド チームの目標とよく一致しています。
テクノロジーを規制するには、それを理解する必要があり、過度に厳格な規制に伴う課題の 1 つは、安全性とセキュリティの両方の観点から AI のリスクを制限する方法を私たちがすでに知っていると想定していることですが、実際はそうではありません。
AI モデルによるデータ漏洩などの従来のセキュリティの観点や、モデルが意図しない有害な画像やコードを生成するなどの安全性の観点では、モデルの新たな弱点が依然として定期的に発見されています。これらのリスクは、世界中の研究者コミュニティによって現在も発見され、定義されているため、これらの課題をよりよく理解して定義するまでは、AI モデルとデプロイメントのストレステストを熱心に続けることが最善の策です。
レッド チーム演習は、新しいリスクを見つけるための最良の方法の 1 つであり、生成 AI などの新興テクノロジーにおけるセキュリティと安全性の懸念を見つけるのに最適です。これは、侵入テスト、時間制限のある攻撃的なハッキング コンテスト、バグ報奨金プログラムを組み合わせて実行できます。その結果、問題の包括的なリストと、修復アドバイスを含む実用的な推奨事項が得られます。
安全性、セキュリティ、説明責任を明確に重視することで、レッドチーム演習は世界中の規制当局から好意的に受け止められる可能性が高く、また英国政府の責任ある AI 開発のビジョンとも一致するものとなります。
AI テストの方法としてレッドチームを設定するもう 1 つの利点は、安全性とセキュリティの両方に使用できることです。ただし、実行方法と目的は異なります。
安全性の問題については、AI システムが有害な情報を生成しないようにすることに重点が置かれています。たとえば、爆弾の作り方や自殺の方法に関するコンテンツの作成をブロックしたり、暴力、性行為、自傷行為など、人を動揺させたり堕落させたりする可能性のある画像の表示を防止したりします。その目的は、潜在的な意図しない結果や偏見を明らかにし、開発者が新しい製品を構築する際に倫理基準に積極的に対処できるようにすることで、AI の責任ある使用を確保することです。
AI セキュリティのレッド チーム演習は、異なる角度から行われます。その目的は、脆弱性を発見して、悪意のある人物が AI を操作してアプリケーションやシステムの機密性、整合性、可用性を侵害するのを阻止することです。レッド チーム演習のこの側面は、欠陥を迅速に発見することで、セキュリティ リスクが悪用される前に、リスクを特定、軽減、修復するのに役立ちます。
その能力を実際に示すものとして、Bard の Extensions AI 機能のリリースは貴重な例となります。この新しい機能により、Bard は Google Drive、Google Docs、Gmail にアクセスできるようになりましたが、リリースから 24 時間以内に、倫理的なハッカーが間接プロンプト インジェクションの影響を受けやすいことを示す問題を特定しました。
これにより、電子メール、ドライブ ドキュメント、位置情報などの個人を特定できる情報 (PII) が深刻なリスクにさらされました。この脆弱性を放置すると、個人の電子メールを盗み出すために悪用される可能性がありました。しかし、倫理的なハッカーはバグ報奨金プログラムを通じて Google に速やかに報告し、20,000 ドルの報奨金を獲得して、潜在的な危機を回避しました。
レッドチーム演習のこの品質は、効果的な評価の基盤として、慎重に選択された多様なスキル セットに依存しています。認知されたプラットフォームを通じて倫理的なハッキング コミュニティと提携することは、AI を厳密にテストするために必要な関連スキルを備えた、さまざまな背景と経験を持つ人材を確保する確実な方法です。
ハッカーは好奇心が旺盛で、既成概念にとらわれない考え方をする人として知られています。ハッカーは、常に変化するセキュリティと安全性の課題について、組織に外部からの新鮮な視点を提供します。
注目すべきは、レッド チーム メンバーに協力する機会が与えられると、その総合的な成果がさらに効果的になり、従来のセキュリティ テストの結果を定期的に上回るようになることです。したがって、チーム間の協力を促進することが重要な考慮事項です。さまざまなスキルと知識を持つ個人を組み合わせることで、AI の導入で最高の結果が得られます。
倫理的なハッキング プログラムに合わせてインセンティブ モデルをカスタマイズすることも重要です。最も効率的なモデルには、特定の安全成果を達成した場合に報奨金を支給するとともに、組織に最も影響を与えるものに応じてハッカーにインセンティブを与えることが含まれます。
確立されたバグ報奨金アプローチを基に、この新しいレッドチーム演習は、企業が新しい展開を開始する前や既存の製品を見直す前に対処しなければならない、AI によってもたらされる新しいセキュリティと安全性の課題に対処します。
AI と LLM プロンプト ハッキングに精通した倫理的なハッカーの集合的なスキルを活用した標的型攻撃テストは、システムとプロセスの強化に役立ちます。自動化ツールや社内チームが見逃した潜在的な脆弱性や予期しない結果を防ぎます。重要なのは、「責任ある AI」の原則を遵守する、より回復力があり安全な AI アプリケーションの作成を保証することです。

元記事: https://www.helpnetsecurity.com/2024/05/13/responsible-ai-red-teaming/