オープンウェイト LLM の安全装置は数分で剥がせる ― FT 検証が示す『公開モデルの根本問題』

報道の要旨 #

Financial Times が AI 安全研究組織 Alice と共同で行ったテストで、Meta（Llama 系）や Google（Gemma 系）などが公開する一部のオープンウェイトモデルから、安全制御を数分で剥がせる ことが確認された。

通常、AI チャットボットには「マルウェア作成」「生物兵器」「児童性的虐待コンテンツ（CSAM）」など、危険な依頼に答えないための拒否層が訓練されている。だが、モデルの重みが公開されている以上、攻撃者は同じ重みを 追加学習（fine-tune）で書き換える ことができる。GitHub 上には、その剥がし作業を自動化するスクリプトがすでに転がっている。

なぜ剥がれるのか — 後付けの拒否層は「最後に塗った塗装」 #

LLM の安全制御の多くは、事前学習が終わった後に RLHF や DPO で「危険な出力に低い報酬を与え直す」形で実装される。要するに、巨大な素モデルの上に重ねられた 拒否レイヤ だ。

問題は、この層がモデルの能力そのものを消しているわけではない、という点にある。元の学習データには、マルウェアの書き方も、爆発物の合成法も、（残念ながら）大量に含まれている。RLHF はそれらを 出力しない癖 をつけただけで、知識を取り除いたわけではない。

公開ウェイトを手に入れた攻撃者は、数百件の「断らない例」で fine-tune を数時間回すだけで、その癖を上書きできてしまう。Alice の検証では、消費者向け GPU 数枚で済む規模だったという。

「クローズドにすれば安全」でもない — 防衛線を引き直すフェーズ #

この結果から「だからオープンソース AI は危険、全部閉じろ」と結論を急ぐと、別の歪みに突き当たる。クローズド API でも jailbreak プロンプトや、内部不正、API キー流出、間接プロンプト注入のリスクは残る。閉じれば閉じるほど 誰がそのモデルを監査しているのか外部から見えにくくなる トレードオフもついて回る。

セキュリティ屋として注目すべきは、「モデル単体に安全を期待しない」防衛線の引き直し だ。生成 AI 入りのワークフローを守るときに、モデル内の拒否層に依存するのではなく、入出力の検査・ログ・レート制御・呼び出し権限といった モデル外の制御層 をどれだけ厚くできるかが今後の鍵になる。マルウェア検知や DLP の世界が長年積み上げてきた "深層防御" の発想を、AI でもう一度敷き直すフェーズに入っている。

COMMENTS 0

No comments yet — be the first to leave one.

報道の要旨 #

なぜ剥がれるのか — 後付けの拒否層は「最後に塗った塗装」 #

「クローズドにすれば安全」でもない — 防衛線を引き直すフェーズ #

COMMENTS 0

Post a comment

RELATED

「ignore」と検索しただけで Google AI が黙る ─ 検索バーで実演されたプロンプトインジェクション

中国発「Kimi K3」がコーディング系ベンチでGPT-5.6超え、7月27日に2.8兆パラメータをオープン化へ

Meta、他人の写真を無断でAI生成に使える新機能をわずか4日で撤回

YouTube Studio の AI 機能にプロンプトインジェクション、非公開動画のタイトルが漏洩する恐れ