報道の要旨 #
Financial Times が AI 安全研究組織 Alice と共同で行ったテストで、Meta(Llama 系)や Google(Gemma 系)などが公開する一部のオープンウェイトモデルから、安全制御を数分で剥がせる ことが確認された。
通常、AI チャットボットには「マルウェア作成」「生物兵器」「児童性的虐待コンテンツ(CSAM)」など、危険な依頼に答えないための拒否層が訓練されている。だが、モデルの重みが公開されている以上、攻撃者は同じ重みを 追加学習(fine-tune)で書き換える ことができる。GitHub 上には、その剥がし作業を自動化するスクリプトがすでに転がっている。
なぜ剥がれるのか — 後付けの拒否層は「最後に塗った塗装」 #
LLM の安全制御の多くは、事前学習が終わった後に RLHF や DPO で「危険な出力に低い報酬を与え直す」形で実装される。要するに、巨大な素モデルの上に重ねられた 拒否レイヤ だ。
問題は、この層がモデルの能力そのものを消しているわけではない、という点にある。元の学習データには、マルウェアの書き方も、爆発物の合成法も、(残念ながら)大量に含まれている。RLHF はそれらを 出力しない癖 をつけただけで、知識を取り除いたわけではない。
公開ウェイトを手に入れた攻撃者は、数百件の「断らない例」で fine-tune を数時間回すだけで、その癖を上書きできてしまう。Alice の検証では、消費者向け GPU 数枚で済む規模だったという。
「クローズドにすれば安全」でもない — 防衛線を引き直すフェーズ #
この結果から「だからオープンソース AI は危険、全部閉じろ」と結論を急ぐと、別の歪みに突き当たる。クローズド API でも jailbreak プロンプトや、内部不正、API キー流出、間接プロンプト注入のリスクは残る。閉じれば閉じるほど 誰がそのモデルを監査しているのか外部から見えにくくなる トレードオフもついて回る。
セキュリティ屋として注目すべきは、「モデル単体に安全を期待しない」防衛線の引き直し だ。生成 AI 入りのワークフローを守るときに、モデル内の拒否層に依存するのではなく、入出力の検査・ログ・レート制御・呼び出し権限といった モデル外の制御層 をどれだけ厚くできるかが今後の鍵になる。マルウェア検知や DLP の世界が長年積み上げてきた "深層防御" の発想を、AI でもう一度敷き直すフェーズに入っている。
COMMENTS 0
No comments yet — be the first to leave one.