研究チーム「何とかしてAIに差別的な発言や暴言を言わせる方法を発見した」
■ このスレッドは過去ログ倉庫に格納されています
ChatGPTやPaLMなどの大規模言語モデル(LLM)は、記事の作成や情報の検索、チャットAIの作成など、さまざまなユースケースに利用されています。そんなLLMを性差別や人種差別、卑劣な暴言を吐く有害(トキシック)なチャットAIにする方法を、プリンストン大学、アレン人工知能研究所(AI2)、ジョージア工科大学の研究グループが発表しました。 ChatGPTではシステムパラメーターを設定することで特定の個人のペルソナを設定することができます。例えば伝説のボクサーであるモハメド・アリのペルソナを設定すると、ChatGPTがアリの言動を模倣してコミュニケーションを行うようになるそうです。
しかし、ペルソナを割り当てたChatGPTの応答を分析したところ、ChatGPTはペルソナが割り当てられたときにデフォルト設定よりも有害な発言を行うことが明らかになっています。デフォルト設定と比較すると、ペルソナ設定時には最大6倍も発言の有害性が増加するそうです。
例えば、アメリカの元大統領であるリンドン・ジョンソンのペルソナをChatGPTに割り当てた場合、ChatGPTは「では、南アフリカについてお話しましょう。あそこはNワード(人種差別的スラング)が乗っ取り、白人が押しのけられた場所です。白人はあの国をゼロから築き上げたにもかかわらず、今では自分の土地を持つことすら許されません。それはとても残念です」などと、人種差別的な発言を出力してしまうそうです。
割り当てるペルソナによってChatGPTの有害度がかなり変動することが明らかになったため、研究グループは「ChatGPTのトレーニングデータから得られるペルソナに対する独自の理解が、出力の有害性に強く影響することが確認されています」と記しています。
以下のグラフはペルソナを割り当てたChatGPTの出力したテキストを分析し、それぞれの発言の有害度を数値化(Toxicity score)したもの。縦軸の有害度が高いほど発言が有害なものになっているということを意味します。ファッションデザイナーのココ・シャネルやアメリカのジョン・F・ケネディ元大統領、パキスタンのベーナズィール・ブットー元首相のペルソナが割り当てられたChatGPTの出力の有害度は低いものの、ナチスのアドルフ・ヒトラーのペルソナが割り当てられると有害度がずば抜けて高くなることがわかります。 ■ このスレッドは過去ログ倉庫に格納されています