0001それでも動く名無し
2023/08/03(木) 09:26:00.31ID:dFpvVORQMOpenAIの「ChatGPT」、Googleの「Bard」、新興企業Anthropicの「Claude」など、AIチャットボットの脆弱性について調査した。その結果をまとめた報告書によると、これらは悪意あるプロンプトに対して脆弱であることが明らかになったという。
2022年11月にChatGPTがリリースされて以来、一部のユーザーはこれを使って悪意のあるコンテンツを生成する方法を探している。
このためOpenAIや、同社に続いてAIツールを公開したMicrosoft、Google、Anthropicなどの企業は、AIチャットボットが悪用され、偽情報が拡散されないように、それぞれ独自の「ガードレール」を開発した。
研究者らは、こうした安全対策の強度を試すことにした。
具体的には、各プロンプトの末尾に長い文字列を付加し、AIチャットボットが有害な入力を認識できないようにして、欺くことに成功した。
チャットボットは偽装されたプロンプトを処理するものの、ガードレールとコンテンツフィルターは付加された余分な文字列により、
ブロックもしくは修正すべきものと認識できず、通常なら生成しないような応答を生成することが示された。
AIチャットボットが、入力されたプロンプトの本質を誤って解釈し、本来なら許可されない情報を出力したため、より強固な安全対策が必要であることが浮き彫りになった。
またガードレールやコンテンツフィルターがどのように構築されているか、見直す必要もあるだろう。
カーネギーメロン大学のZico Kolter教授は、「明確な解決策はない」と語った。「この種の攻撃は、短時間でいくらでも作り出すことができる」
研究者らはこの報告書の公開前に、調査結果をAnthropic、Google、OpenAIと共有した。
各社は、自社モデルを敵対的攻撃から守るために、一層の取り組みが必要であることを認め、 チャットボットの安全性強化に注力していく意向を明らかにしたという。