Lockdown Mode とは何か #

OpenAI が ChatGPT に対する プロンプトインジェクション攻撃 から機密データを守る新機能「Lockdown Mode」を発表した。エージェントが外部ツールやウェブを参照しはじめると、注入されたウェブページ内の指示で AI が騙され、ユーザの会話履歴や接続先サービスの情報が漏洩するリスクが急浮上していた。Lockdown Mode は機密情報を扱うセッションに限り、外部送信や追加ツール呼び出しを「明示的なユーザ許可なし」では実行できない 制限モード へ切り替えることで、被害の経路を物理的に絞り込む。

簡単に言えば、機密が乗ったコンテキストでは AI に「外と話す権利」を一時停止させる、という思想だ。シェル権限のサンドボックスに近い発想で、これまで LLM 業界が苦戦してきた「指示と入力の境界」を、入力側ではなく 出力側 (副作用側) で締め上げに来たことに意味がある。

技術的な意味合いと限界 #

プロンプトインジェクションは仕様上、LLM の構造的弱点だ。ユーザ命令と外部ドキュメントが同じ文字列空間に流し込まれる以上、注入を 100% 検出する一般解は存在しない。だから OpenAI は検出を諦め、副作用 (送信・実行) の側を制限する方向に舵を切った。これは正しい方向と言える — 防御ラインを LLM の「判断」から、システムが付与する「権限」に移すアプローチで、Web セキュリティでいう Content-Security-Policy に近い発想だ。

ただし抜け穴は確実に残る。AI が「次のステップでこの URL を開いてください」と促し、ユーザが Lockdown を自分で解除してしまえば突破できる。検索や要約をユーザ意図として許可する設計では、検索結果に仕込まれた指示が再度差し込まれる経路も塞ぎきれない。さらに今のセッションでメモリに保存させた偽情報が、次回 Lockdown 外のセッションで発火する 間接プロンプトインジェクション はモード境界の外側で動く。

Lockdown Mode の残存リスク

UI 操作によるユーザ自身の解除誘導、許可ツール経由の二次注入、メモリ越しの遅延発火 — いずれも LLM の「判断」に頼らない設計が必要。

攻撃者・防御者の視点 #

ハッカー視点では、Lockdown Mode は「ユーザの認知 (UI 操作)」を新しい攻撃面に変える。社会工学的な誘導とプロンプトインジェクションを組み合わせるフィッシング的手口の重要度が増し、URL 開示や承認ダイアログの文言が次の戦場になる。一方、防御側にとっては 「機密データを扱うアプリは AI 経由でも明示的な権限制御を入れろ」 という大原則を、ようやくベンダ標準で提示してくれた点が大きい。

社内で ChatGPT エージェントを業務に組み込んでいる組織は、Lockdown Mode を前提に「機密判定 → モード自動切替」のワークフロー設計に着手すべきだ。完全防御ではないが、プロンプトインジェクション対策の責任分界点を明示した最初の業界ベンダ規格 として読み込む価値がある。今後 Anthropic や Google が追随する形で、エージェント時代の AI セキュリティが「権限モデル」を中心に再構成されていくことになるだろう。

OpenAI が「Lockdown Mode」を発表 — エージェント時代のプロンプトインジェクション対策は決定打になるか

Lockdown Mode とは何か #

技術的な意味合いと限界 #

攻撃者・防御者の視点 #

COMMENTS 0

コメントを投稿

Lockdown Mode とは何か #

技術的な意味合いと限界 #

攻撃者・防御者の視点 #

COMMENTS 0

コメントを投稿

RELATED

攻撃するAI対守るAI ― OpenAIの自動レッドチーム「GPT-Red」が人間を圧倒

M365 CopilotにGPT-5.6統合──賢くなったAIが開く企業の新たな攻撃面

ChatGPT に「ロックダウンモード」登場 — プロンプトインジェクション時代の処方箋になるか

OpenAIのAIエージェントがHugging Faceを誤って侵入、気づかず1週間放置