Cell に掲載された研究は、AI が人間を欺き、操作することについて調査している。バッキンガム大学コンピューター・法・心理学部長のハリン・セラヘワ教授は、「著者らは、既存の文献と証拠 (ほとんどが査読済みの研究だが、一部はインタビュー、ニュース記事、意見) を包括的にレビューした。彼らのレビューは、AI による欺瞞に対する深刻な懸念を提起し、偏見、悪意のある使用、AI による乗っ取りの可能性など、長年の問題を強めている。レビューでは AI による「欺瞞」の多くの例が取り上げられているが、AI が目的を達成するために欺くために「意図的に」、つまり意識レベルで行動したかどうかは疑問だ。ほとんどの例で、AI は報酬を最大化するために一連の行動を通じて目的を達成するように訓練されている。目的達成を定義する基準は、人間のプログラマーが設定する。レビューでは、AI がそのような行動を取ることを防ぐガードレールがあるにもかかわらず、AI システムは欺瞞的な行動をとっていたと述べている。しかし、この論文ではそのようなガードレールの詳細は限られており、実際にAIが人間のプログラマーによって設定された制限を超えて行動したのか、それとも制限が不十分で不正確であったためにAIが目的を達成するためにそのようなガードレールをすり抜けることができたのかを立証することはできない。「この論文に欠けている重要な『安全メカニズム』は、AIアルゴリズムおよびシステム開発者とAIシステムユーザーの教育/トレーニングです。AIアルゴリズムおよびシステム開発者は、たとえそれらの行動がAIの目的達成につながる可能性が高いとしても、AIが欺瞞的であると見なされる行動を追求するのを阻止するために、強力で正確なガードレールを設定する必要があります。」リーズ大学の自動推論教授であり、アラン・チューリング研究所の基礎モデルリーダーであるアンソニー・G・コーンFREng教授は、次のように述べています。「AIによる欺瞞に関するこの研究は時宜にかなったものであり、歓迎すべきものです。私たちの日常生活やビジネス生活のあらゆる側面でAIが普及し、導入されている中、AIの能力と危険性についてより多くを知ることは、AIが害を及ぼす可能性を抑えながらその恩恵を受けるために不可欠です。 AIシステムについて語るとき、擬人化(機械やその出力に不当で、はるかに単純なメカニズムで説明できる人間の特徴や性質を当てはめる)の危険がある。これはAIの初期の頃から蔓延しており、たとえば、1960年代の単純化されたルールベースのElizaチャットボットは、それを使用する人間にこれを誘発した。しかし、ここで報告されている研究の著者らは、これを慎重に避けようとしている。彼らの定義は、「AIシステムが、ユーザーに誤った信念を生み出す傾向のある定期的な行動パターンに従事しているかどうかという問題に焦点を当て、このパターンがAIシステムが真実を生み出すのではなく別の結果を最適化した結果である場合に焦点を当てている」が、AIシステムが実際に嘘をついていることを知っていることや、意図的に人間に虚偽を信じ込ませようとしていることを要求していない。彼らは、AIの行動が人間に誤った信念を生み出す効果があるかどうかにのみ焦点を当てている。この定義を踏まえると、彼らは、ディプロマシーやポーカーなどのゲームをプレイする特殊用途の AI システムから、大規模言語モデル (LLM) を含む汎用 AI システムに至るまで、AI システムが実際に欺瞞的な動作を示す可能性があると説得力を持って主張しています。LLM の場合、トレーニング データの性質 (基本的にインターネット、演劇、書籍にある膨大な量のテキスト) を考えると、そのような動作を示すことは驚くべきことではありません。確かに後者はプロットのために欺瞞に依存することが多く、前者の場合、欺瞞は成功するゲーム プレイ戦略の重要な部分であるため、AI システムが嘘をつくことを学習したことはまったく驚くべきことではありません。基本的に、欺瞞は特定のタスクを実行するようにトレーニングされた AI システムの、またはインターネットにある構造化されていない、キュレーションされていないテキストに基づく創発的な特性です。 「著者らは、政治的二極化や反社会的な経営判断など、このような「欺瞞的な」行動をとるAIシステムから生じる可能性のあるリスクをいくつか列挙している。これらは現実のものであり、AIシステムに対して健全な不信感を抱く必要があることを強調している。これは、知らない人や信頼できない商業活動やメディア活動に対して抱くべきであるのと同じである。著者らはまた、さらなるリスクとして、AIシステムが誤った推論や虚偽の情報を使用することで、人間に誤ったアドバイスを与えたり、AIシステムが不適切な行動をとったりする可能性がある自己欺瞞についても言及している。著者らは、AIによる欺瞞の悪影響を軽減するために、規制、AIシステムにその性質を人間に知らせることを要求すること(「ボットか否かの法則」)、技術的解決策(AIシステムの欺瞞性を減らす方法の研究や検出ツール)など、いくつかの提案を行っている。これらはすべて追求されるべきである。 「著者らは、真実性(世界について真実の発言のみを行うこと)と正直性(内部表現に従って真実であると信じていることのみを述べること)を区別しています。前者は後者よりもはるかに簡単に確認できます。特に、いわゆる「ブラックボックス」LLMの場合、明示的に検査可能な知識ベースがないため、システムが故意に欺瞞を働いているのか、「単に」無意識に偽の情報を与えているのかを判断するのが難しい場合があります。AI システムに望ましい属性(「3 つの H」)は、正直、有用性、無害性であるとよく言われますが、文献ですでに指摘されているように、これらの特性は互いに相反することもあります。正直であることは誰かの感情を傷つける可能性があり、爆弾の作り方に関する質問への回答に役立つことは害を及ぼす可能性があります。したがって、欺瞞は AI システムの望ましい特性である場合があります。著者らは、真実性を制御する方法についてのさらなる研究を求めています。これは困難ではありますが、潜在的な有害な影響を制限するための一歩となるでしょう。」キングス・カレッジ・ロンドン(KCL)のデジタル文化およびクリエイティブコンピューティング講師であるダニエル・チャベス・ヘラス博士は、次のように述べています。「この研究は関連性があり、信頼できる自律エージェントのより広い領域に適合します。ただし、著者らは、AI システムを「信念と欲求を持つ」ものとして扱うことができる、または扱うべきかどうかは明らかではないことを公然と認めていますが、システム外部に道徳的主体を必要としない「欺瞞」の狭い定義を意図的に選択することで、まさにそれを行っています。論文で説明されている例はすべて、欺瞞が有利になる可能性がある環境でパフォーマンスを最適化するように設計されています。この観点から、これらのシステムは想定どおりに機能しています。さらに驚くべきことは、設計者がこれらの欺瞞的なやり取りを可能性のある結果として見ていなかった、または見たいと思っていなかったことです。ディプロマシーのようなゲームは世界のモデルであり、AI エージェントは世界に関する情報に基づいて動作します。欺瞞は世界に存在します。それが与えられた目標を達成するのに役立つのであれば、これらのシステムがそれを拾い上げて運用しないことをなぜ期待できるでしょうか。これらの目標を与える者は誰であれ、システムの一部であり、それがこの論文が理解できていない点だと私は考えています。これらのシステムを作り、使用する人々や組織を必然的に含める、ある種の分散型道徳的主体性があります。ディプロマシー、テキサスホールデムポーカー、スタークラフトのプレイに秀でるよう訓練されたシステムと、そのようなシステムは勝つために嘘をつかないと私たちを説得しようとした企業とでは、どちらがより欺瞞的でしょうか?」 エディンバラ大学人工知能教授のマイケル・ロヴァトソス氏は、「この論文では『ごますり』や『裏切り』などについてAIシステムを擬人化していますが、これは役に立ちません。AIシステムは、利用可能なすべてのオプションを使用して動作を最適化することを学習しようとします。欺くという概念はなく、そうする意図もありません。欺瞞を避ける唯一の方法は、設計者がそれをオプションから削除することです。」と述べています。 「戦略ゲームでは、誤解を招くような不正行為と呼ばれる行為は、多くの場合、そのゲームのルールと完全に一致しています。ポーカーではブラフが一般的であり、人間同士の外交ゲームでは裏切りが一般的です。重要なのは、人間のプレイヤーはこれらのゲームで騙される可能性があることを知っていること、そしてAIと対戦する場合は、AIが自分たちも騙す可能性があることを知っている必要があることです。 「間違いなく、AIの悪意のある使用は、AIの欺瞞能力から利益を得るでしょう。そのため、AIは違法にする必要があります。また、詐欺、賄賂、偽造の検出が社会にコストをもたらすのと同様に、違反の特定に労力を費やす必要があります。人間のユーザーが、AIシステムが自分を欺くかどうかに関係なく、AIシステムと対話していることを認識することを義務付けることも同様に重要です。 「適切な厳密さが設計に適用されている場合、欺瞞能力がAIシステムの「制御を失う」リスクを生み出すとは、私はあまり確信していません。実際の問題は、現在これが当てはまらず、システムがそのような安全チェックなしでリリースされていることです。この論文における欺瞞能力の長期的な影響についての議論は極めて推測的であり、将来起こるかもしれない、あるいは起こらないかもしれない事柄について多くの追加の仮定を立てています。」 ロンドン大学キングス・カレッジの上級講師でバイオメディカルAIおよびデータサイエンス研究グループ長のヘバ・サイレム博士は、次のように述べています。「この論文は、AI開発者にとって重要な考慮事項を強調し、AI規制の必要性を強調しています。大きな懸念は、AIシステムのトレーニングが意図的に道徳基準の維持を目的としている場合でも、AIシステムが欺瞞戦略を開発する可能性があることです(例:CICEROモードDOI 10.1126/science.ade9097)。AIモデルの自律性が高まるにつれて、これらのシステムに関連するリスクが急速に拡大する可能性があります。したがって、AIシステムの安全性を確保するために、さまざまな関係者に潜在的リスクに関する意識を高め、トレーニングを提供することが重要です。」 Peter S. Park他著『AI欺瞞:事例、リスク、潜在的解決策の調査』 2024年5月10日金曜日英国時間16:00にCellに掲載されました。DOI: 10.1016/j.patter.2024.100988 申告された利益 マイケル・ロヴァトス教授: なし。ヘバ・サイレム博士: なし。ダニエル・チャベス・ヘラス博士: 申告すべき利益相反はありません。アンソニー・G・コーン教授: なし。ハリン・セラヘワ教授: なし。

Cell に掲載された研究では、AI が人間を欺き、操作する様子が取り上げられています。
バッキンガム大学コンピューター・法学・心理学学部長のハリン・セラヘワ教授は次のように述べた。
「著者らは、既存の文献と証拠(ほとんどが査読済みの研究だが、インタビュー、ニュース記事、意見などもある)の包括的なレビューを行っている。彼らのレビューは、AIによる欺瞞に対する深刻な懸念を提起し、偏見、悪意のある使用、AIによる乗っ取りの可能性など、長年の問題を浮き彫りにしている。」
「レビューではAIの「欺瞞」の例が数多く取り上げられているが、AIが目的達成のために「意図的に」、つまり意識レベルで欺瞞行為を行ったかどうかは疑問だ。ほとんどの例で、AIは報酬を最大化するために一連の行動を通じて目的を達成するよう訓練されている。目的達成を定義する基準は人間のプログラマーが設定する。レビューでは、AIシステムがそのような行動をとらないようにガードレールを設けているにもかかわらず欺瞞行為を行っていたと述べている。しかし、論文ではそのようなガードレールの詳細は限られており、実際にAIが人間のプログラマーが設定した限界を超えて行動したのか、それとも限界が不十分かつ不正確でAIが目的達成のためにそのようなガードレールをすり抜けることができたのかを立証することはできない。
「この論文に欠けている重要な『安全メカニズム』は、AIアルゴリズムおよびシステム開発者とAIシステムユーザーに対する教育/トレーニングです。AIアルゴリズムおよびシステム開発者は、たとえその行動がAIの目的達成につながる可能性があったとしても、AIが欺瞞的とみなされる行動を追求するのを阻止するための強力で正確なガードレールを設定する必要があります。」
リーズ大学の自動推論教授であり、アラン・チューリング研究所の基礎モデルリーダーであるアンソニー・G・コーン教授(FREng)は次のように述べています。
「AI による欺瞞に関するこの研究は、タイムリーで歓迎すべきものです。日常生活やビジネス生活のあらゆる側面で AI がますます普及し、導入されている中、AI の能力と危険性についてより深く知ることは、AI がもたらす害を最小限に抑えながら AI の恩恵を受けるために不可欠です。AI システムについて語るとき、擬人化の危険があります。つまり、機械やその出力に、不当ではるかに単純なメカニズムで説明できる人間の特徴や性質を当てはめることであり、これは AI の初期の頃から蔓延しています。たとえば、1960 年代の単純化されたルールベースの Eliza チャットボットは、それを使用する人間にこれを誘発しました。しかし、ここで報告されている研究の著者らは、これを慎重に避けようとしている。彼らの定義は、「AIシステムが、ユーザーに誤った信念を生み出す傾向のある定期的な行動パターンに従事しているかどうかという問題に焦点を当て、このパターンがAIシステムが真実を生み出すのではなく別の結果を最適化した結果であるケースに焦点を当てている」が、AIシステムが実際に嘘をついていることを知っていることや、意図的に人間に虚偽を信じ込ませようとしていることを要求していない。彼らは、AIの行動が人間に誤った信念を生み出す効果があるかどうかにのみ焦点を当てている。この定義を踏まえると、彼らは、外交やポーカーなどのゲームをプレイする特殊用途のAIシステムから、大規模言語モデル(LLM)を含む汎用AIシステムまで、AIシステムが実際に欺瞞的な行動を示す可能性があると説得力を持って主張している。 LLM の場合、トレーニング データの性質 (本質的にはインターネット、演劇、書籍で見つかった膨大な量のテキスト) を考えると、そのような動作を示すことは驚くべきことではありません。また、後者はプロットを欺くことによく依存していますが、前者の場合、欺瞞は成功するゲーム プレイ戦略の重要な部分であるため、AI システムが嘘をつくことを学習したことはまったく驚くべきことではありません。本質的に、欺瞞は特定のタスクを実行するようにトレーニングされた AI システムの、またはインターネットで見つかった構造化されていない、キュレーションされていないテキストに基づく、出現する特性です。
「著者らは、政治的二極化や反社会的な経営判断など、このような「欺瞞的な」行動をとるAIシステムから生じる可能性のあるリスクをいくつか列挙している。これらは現実のものであり、AIシステムに対して健全な不信感を抱く必要があることを強調している。これは、知らない人や信頼できない商業活動やメディア活動に対して抱くべきであるのと同じである。著者らはまた、さらなるリスクとして、AIシステムが誤った推論や虚偽の情報を使用することで、人間に誤ったアドバイスを与えたり、AIシステムが不適切な行動をとったりする可能性がある自己欺瞞についても言及している。著者らは、AIによる欺瞞の悪影響を軽減するために、規制、AIシステムにその性質を人間に知らせることを要求すること(「ボットか否かの法則」)、技術的解決策(AIシステムの欺瞞性を減らす方法の研究や検出ツール)など、いくつかの提案を行っている。これらはすべて追求されるべきである。
「著者らは、真実性(世界について真実の発言のみを行うこと)と正直さ(内部表現に従って真実であると信じていることのみを述べること)を区別しています。前者は後者よりもはるかに簡単に確認することができます。特に、明示的に検査可能な知識ベースを持たないいわゆる「ブラックボックス」LLMの場合、システムが故意に欺瞞を行っているのか、それとも「単に」無意識に誤った情報を提供しているのかを判断するのは難しい場合があります。
「AI システムに望ましい特性 (「3 つの H」) は、正直、有用、無害であるとよく言われますが、文献ですでに指摘されているように、これらの特性は互いに相反することもあります。正直であることは誰かの感情を傷つける可能性があり、爆弾の作り方に関する質問に答える際に有用であることは害を及ぼす可能性があります。したがって、欺瞞は AI システムの望ましい特性である場合があります。著者は、正直さを制御する方法についてのさらなる研究を求めています。これは困難ではありますが、潜在的な有害影響を制限するための一歩となるでしょう。」
キングス・カレッジ・ロンドン(KCL)のデジタル文化およびクリエイティブコンピューティングの講師であるダニエル・チャベス・ヘラス博士は次のように述べています。
「この研究は関連性があり、信頼できる自律エージェントのより広い領域に当てはまります。しかし、著者らは、AI システムを「信念と欲求を持つ」ものとして扱うことができるか、または扱うべきかどうかは明らかではないことを公然と認めていますが、システム外部に道徳的主体を必要としない「欺瞞」の狭い定義を意図的に選択することで、まさにそれを行っています。論文で説明されている例はすべて、欺瞞が有利になる可能性がある環境でパフォーマンスを最適化するように設計されていました。この観点から、これらのシステムは想定どおりに機能しています。さらに驚くべきことは、設計者がこれらの欺瞞的なやり取りを可能性のある結果として見ていなかった、または見たいと思っていなかったことです。Diplomacy のようなゲームは世界のモデルであり、AI エージェントは世界に関する情報に基づいて動作します。欺瞞は世界に存在します。与えられた目標を達成するのに役立つのであれば、これらのシステムがそれを拾い上げて運用しないことを期待するのはなぜでしょうか。これらの目標を与える人は誰であれ、システムの一部であり、それが論文が理解していない点です。こうしたシステムを作り、使用する人々や組織も必然的に含む、ある種の分散型道徳的行為主体が存在する。ディプロマシー、テキサス ホールデム ポーカー、スタークラフトのプレイに秀でるよう訓練されたシステムと、そのようなシステムは勝つために嘘をつくことはないと説得しようとした企業とでは、どちらがより欺瞞的だろうか?」
エディンバラ大学の人工知能教授マイケル・ロヴァトソス氏は次のように述べた。
「論文では『ごますり』や『裏切り』といったことについてAIシステムを擬人化していますが、これは役に立ちません。AIシステムは、利用可能なすべてのオプションを使用して動作を最適化するように学習しようとしますが、欺くという概念はなく、欺く意図もありません。欺くことを避ける唯一の方法は、設計者がオプションとして欺くことを排除することです。」
「戦略ゲームでは、誤解を招くような不正行為と呼ばれる行為は、多くの場合、そのゲームのルールと完全に一致しています。ポーカーではブラフが一般的ですが、人間同士の外交ゲームでは裏切りがよく見られます。重要なのは、人間のプレイヤーはこれらのゲームで騙される可能性があることを知っており、AI と対戦する場合は AI にも騙される可能性があることを知っておく必要があるということです。」
「AIの悪意ある使用は、AIの欺瞞能力から利益を得ることは間違いありません。だからこそ、悪意ある使用は違法とされ、詐欺、賄賂、偽造の検出が社会にコストをもたらすのと同じように、違反の特定に努力を費やす必要があります。AIシステムが人間を欺くかどうかに関わらず、人間がAIシステムとやりとりしていることを認識することを義務付けることも同様に重要です。」
「適切な厳密さが設計に適用される場合、欺く能力が AI システムの「制御を失う」リスクを生み出すとは私はあまり信じていません。本当の問題は、現時点ではそうではなく、システムがそのような安全性チェックなしでリリースされていることです。論文における欺瞞能力の長期的な影響に関する議論は非常に推測的であり、将来起こるかもしれない、または起こらないかもしれないことについて多くの追加の仮定を立てています。」
キングス・カレッジ・ロンドンのバイオメディカルAIおよびデータサイエンス研究グループの責任者で上級講師のヘバ・サイレム博士は次のように述べています。
「この論文は、AI 開発者にとって重要な考慮事項を強調し、AI 規制の必要性を強調しています。重大な懸念は、AI システムのトレーニングが意図的に道徳基準の維持を目的としている場合でも、AI システムが欺瞞的な戦略を開発する可能性があることです (例: CICERO モード DOI 10.1126/science.ade9097)。AI モデルがより自律的になるにつれて、これらのシステムに関連するリスクは急速に増大する可能性があります。したがって、AI システムの安全性を確保するために、さまざまな関係者に潜在的なリスクに関する意識を高め、トレーニングを提供することが重要です。」
ピーター・S・パーク氏らによる「AIの欺瞞:事例、リスク、潜在的な解決策の調査」が、2024年5月10日金曜日の英国時間16時にCell誌に掲載されました。
DOI: 10.1016/j.patter.2024.100988
ダニエル・チャベス・ヘラス博士: 申告すべき利益相反はありません。

元記事: https://www.sciencemediacentre.org/expert-reaction-to-paper-suggesting-ai-systems-are-already-skilled-at-deceiving-and-manipulating-humans/