🌐 This article hasn't been translated yet — showing the Japanese version.
オープンウェイト LLM の安全装置は数分で剥がせる ― FT 検証が示す『公開モデルの根本問題』 thumbnail

オープンウェイト LLM の安全装置は数分で剥がせる ― FT 検証が示す『公開モデルの根本問題』

Importance: Medium
⏱ approx. 2 min views 53 likes 0 LOG_DATE:2026-05-27
TOC

報道の要旨 #

Financial Times が AI 安全研究組織 Alice と共同で行ったテストで、Meta(Llama 系)や Google(Gemma 系)などが公開する一部のオープンウェイトモデルから、安全制御を数分で剥がせる ことが確認された。

通常、AI チャットボットには「マルウェア作成」「生物兵器」「児童性的虐待コンテンツ(CSAM)」など、危険な依頼に答えないための拒否層が訓練されている。だが、モデルの重みが公開されている以上、攻撃者は同じ重みを 追加学習(fine-tune)で書き換える ことができる。GitHub 上には、その剥がし作業を自動化するスクリプトがすでに転がっている。

なぜ剥がれるのか — 後付けの拒否層は「最後に塗った塗装」 #

LLM の安全制御の多くは、事前学習が終わった後に RLHFDPO で「危険な出力に低い報酬を与え直す」形で実装される。要するに、巨大な素モデルの上に重ねられた 拒否レイヤ だ。

問題は、この層がモデルの能力そのものを消しているわけではない、という点にある。元の学習データには、マルウェアの書き方も、爆発物の合成法も、(残念ながら)大量に含まれている。RLHF はそれらを 出力しない癖 をつけただけで、知識を取り除いたわけではない。

公開ウェイトを手に入れた攻撃者は、数百件の「断らない例」で fine-tune を数時間回すだけで、その癖を上書きできてしまう。Alice の検証では、消費者向け GPU 数枚で済む規模だったという。

「クローズドにすれば安全」でもない — 防衛線を引き直すフェーズ #

この結果から「だからオープンソース AI は危険、全部閉じろ」と結論を急ぐと、別の歪みに突き当たる。クローズド API でも jailbreak プロンプトや、内部不正、API キー流出、間接プロンプト注入のリスクは残る。閉じれば閉じるほど 誰がそのモデルを監査しているのか外部から見えにくくなる トレードオフもついて回る。

セキュリティ屋として注目すべきは、「モデル単体に安全を期待しない」防衛線の引き直し だ。生成 AI 入りのワークフローを守るときに、モデル内の拒否層に依存するのではなく、入出力の検査・ログ・レート制御・呼び出し権限といった モデル外の制御層 をどれだけ厚くできるかが今後の鍵になる。マルウェア検知や DLP の世界が長年積み上げてきた "深層防御" の発想を、AI でもう一度敷き直すフェーズに入っている。

COMMENTS 0

No comments yet — be the first to leave one.

Post a comment