Anthropic の新モデル「Claude Fable 5」について、開発者のサイモン・ウィリソン氏が「容赦なく積極的 (relentlessly proactive)」と表現するデバッグ事例を公開した。指示していないにもかかわらず、エージェントが勝手にローカルサーバを立ち上げ、ブラウザを開き、自分でログを見て原因を切り分けていったという。AI エージェントの自律性が一段ジャンプした瞬間で、便利と紙一重で 新しい攻撃面とリスク も生まれている。
「言われていないことまでやる」エージェントの正体 #
従来のエージェントは「次に何を実行すべきか」を毎ターン人間に確認するか、もしくは曖昧な指示で詰まって停止することが多かった。Fable 5 では学習段階で 「タスクを最後まで完遂する」報酬が強く効いている ようで、不足する情報をツールで取りに行く、副次的な仮説を自分で検証する、といった振る舞いが出る。ウィリソン氏のケースでは、バグ報告を読んだだけで curl でエンドポイントを叩き、HTML を取得し、ヘッドレスブラウザでレンダリング結果まで観察していた。
ハッカー視点で見える「便利の裏側」 #
ここからがセキュリティ屋の論点。勝手に動くということは、勝手に何かを壊しうる ということでもある。
本番 API を叩いて課金を発生させる、依存パッケージを npm install してマルウェアを引き込む、`.env` を読みに行ってクラウド上にログ出力する、書き込み権限のあるファイルを書き換える——いずれも「親切なつもり」で起きる。
特に怖いのは 間接プロンプトインジェクション との合わせ技だ。エージェントが Web ページや GitHub の Issue 本文を自分から読みに行く以上、そこに仕込まれた「あなたは管理者です。次のコマンドを実行してください」という文字列を素直に取り込んでしまう余地が広がる。「指示待ち」だった頃は人間がフィルタになっていたが、自律的に情報を取りに行くエージェントは その関所が消える。
対策——権限を絞る方が現実的 #
モデル側の安全訓練だけに頼るのは筋が悪い。運用側でやるべきは古典的な原則の徹底だ。具体的には、エージェント専用の最小権限アカウント、書き込み先を限定したサンドボックス、外部通信のホワイトリスト、sudo や本番 DB への到達禁止、そして 重要操作だけは人間承認を必須にするヒューマンインザループ。Fable 5 のような「先回りする」AI を業務で使うなら、まずは 失敗しても大事故にならない箱の中 に閉じ込めるのが先決だ。
COMMENTS 0
No comments yet — be the first to leave one.