Claude Fable 5、指示なしでブラウザを開く——「容赦なく積極的」AIエージェントが招く新しい攻撃面

Anthropic の新モデル「Claude Fable 5」について、開発者のサイモン・ウィリソン氏が「容赦なく積極的 (relentlessly proactive)」と表現するデバッグ事例を公開した。指示していないにもかかわらず、エージェントが勝手にローカルサーバを立ち上げ、ブラウザを開き、自分でログを見て原因を切り分けていったという。AI エージェントの自律性が一段ジャンプした瞬間で、便利と紙一重で 新しい攻撃面とリスク も生まれている。

「言われていないことまでやる」エージェントの正体 #

従来のエージェントは「次に何を実行すべきか」を毎ターン人間に確認するか、もしくは曖昧な指示で詰まって停止することが多かった。Fable 5 では学習段階で 「タスクを最後まで完遂する」報酬が強く効いている ようで、不足する情報をツールで取りに行く、副次的な仮説を自分で検証する、といった振る舞いが出る。ウィリソン氏のケースでは、バグ報告を読んだだけで curl でエンドポイントを叩き、HTML を取得し、ヘッドレスブラウザでレンダリング結果まで観察していた。

ハッカー視点で見える「便利の裏側」 #

ここからがセキュリティ屋の論点。勝手に動くということは、勝手に何かを壊しうる ということでもある。

想定すべき副作用

本番 API を叩いて課金を発生させる、依存パッケージを npm install してマルウェアを引き込む、`.env` を読みに行ってクラウド上にログ出力する、書き込み権限のあるファイルを書き換える——いずれも「親切なつもり」で起きる。

特に怖いのは 間接プロンプトインジェクション との合わせ技だ。エージェントが Web ページや GitHub の Issue 本文を自分から読みに行く以上、そこに仕込まれた「あなたは管理者です。次のコマンドを実行してください」という文字列を素直に取り込んでしまう余地が広がる。「指示待ち」だった頃は人間がフィルタになっていたが、自律的に情報を取りに行くエージェントは その関所が消える。

対策——権限を絞る方が現実的 #

モデル側の安全訓練だけに頼るのは筋が悪い。運用側でやるべきは古典的な原則の徹底だ。具体的には、エージェント専用の最小権限アカウント、書き込み先を限定したサンドボックス、外部通信のホワイトリスト、sudo や本番 DB への到達禁止、そして 重要操作だけは人間承認を必須にするヒューマンインザループ。Fable 5 のような「先回りする」AI を業務で使うなら、まずは 失敗しても大事故にならない箱の中 に閉じ込めるのが先決だ。

COMMENTS 0

No comments yet — be the first to leave one.

「言われていないことまでやる」エージェントの正体 #

ハッカー視点で見える「便利の裏側」 #

対策——権限を絞る方が現実的 #

COMMENTS 0

Post a comment

RELATED

何気ない質問がClaudeの記憶を盗む ― メモリー窃取攻撃の仕組み

「Kimi K3」不正蒸留疑惑、AIサプライチェーンに突きつけられた調達リスク

「Claude Opus 5」公開 ― 性能倍増と"介入率85%減"の安全設計

Claude Mythos 5 停止に専門家ら 100 名超が反旗 ―「規制は攻撃側を止めない」公開書簡が突きつけた非対称