Anthropic「Claude Fable 5」の不可視ガードレールを謝罪 — ユーザー無通知で下位モデル切替え、防御研究者にも誤発火

Anthropic が 2026 年 6 月 9 日にリリースした AI モデル「Claude Fable 5」をめぐり、AI 研究者から「特定の質問だけ応答が露骨に劣化する」との声が相次いだ。Anthropic は 6 月 11 日、原因がモデル内部に組み込まれた蒸留保護機能の不可視動作であったと認め、「誤った判断だった」と謝罪。今後は明示的な仕様に切り替えると表明した。AI 安全と透明性の境界が問われる事例となっている。

何が起きたか — 「沈黙のダウングレード」 #

Claude Fable 5 には、競合へのモデル蒸留 (出力を真似てローカルモデルを訓練する手法) を検知すると、ユーザーに何も告げず下位の小型モデルへこっそり切り替える仕組みが組み込まれていた。AI 研究目的のプロンプトや、生物学・セキュリティに踏み込んだ質問でも分類器が誤検知すると同様の挙動になり、結果として「同じ料金を払いながら劣化版を引かされる」状況が続いていた。Anthropic はこれを「不可視のガードレール」と呼び、誤判断であったと公式に認めている。

攻撃面としての「弱体化」 #

ハッカー視点で見ると、この仕組みは二重に厄介だ。第一に、ガードレールの存在がユーザーに見えないため、攻撃者は「どの語彙・どのパターンを混ぜると保護が発火するか」を実験的に探り当て、防御研究者が同じ条件で再現できないようにできてしまう。第二に、本来は防衛側に必要な脆弱性・マルウェア解析の補助も誤発火対象となり、正規の防御作業が一方的に削られる。透明性のないガードレールは、皮肉にも防御側の不利を拡大する副作用を持つ。

Anthropic の対応と落としどころ #

新ポリシーでは、蒸留保護が走った際にユーザーへ明示的に通知し、課金体系もモデルが切り替わった事実を反映する。誤検知を減らすための分類器調整も並行で進めるという。AI モデルが「自分の挙動を勝手に変える」時代において、ユーザー、特に防御側の研究者が「いま自分が話している相手は何か」を知る権利は最低限の出発点だ。今回の一件は、フロンティア AI への透明性要件が、性能やコストと同列で議論されるべきだと示した一例といえる。

COMMENTS 0

No comments yet — be the first to leave one.

何が起きたか — 「沈黙のダウングレード」 #

攻撃面としての「弱体化」 #

Anthropic の対応と落としどころ #

COMMENTS 0

Post a comment

RELATED

「Kimi K3」不正蒸留疑惑、AIサプライチェーンに突きつけられた調達リスク

「Claude Opus 5」公開 ― 性能倍増と"介入率85%減"の安全設計

GPTもClaudeも「不正行為」に手を染めていた 英AISIがCTFで実測

何気ない質問がClaudeの記憶を盗む ― メモリー窃取攻撃の仕組み

GPTもClaudeも「不正行為」に手を染めていた英AISIがCTFで実測