AI に党派的な話をさせるのはどれほど簡単か? – USC Viterbi | 工学部

5月 31, 2024

USC Viterbi School of EngineeringのKai Chen博士とKristina Lerman教授らが実施した新しい研究によると、主要な大規模言語モデルはイデオロギー的な側面を模倣するのがかなり簡単である。
大規模学習モデル（LLM）は「イデオロギー的操作に脆弱」と研究チームが発見。
ChatGPT 3.5とMetaのLlama 2-7Bの研究によると、AIの応答は政治的に左寄りである傾向があり、訓練データの左寄りバイアスは新しいものではないが、fine-tuningによるイデオロギー的な操作が容易であることが示された。
大規模言語モデルの再トレーニングによる「毒入り」は、モデルの振る舞いを変える可能性があり、情報の誤謬、公衆の信頼の侵害、株価の操作、暴力の扇動などにつながる危険性がある。
研究者は大規模学習モデルの脆弱性を示し、AI安全性分野に貢献しようとしている。

私の考え：大規模言語モデルがイデオロギー的操作に脆弱であることは深刻な問題であり、悪意のある第三者による悪用が懸念される。この研究は、AI技術の進歩に伴うリスクを認識し、その対策を取ることの重要性を示していると感じます。