Anthropic が示す再帰的自己改善 — 社内コード 8 割を Claude が書く時代の制御問題

米 Anthropic が 6 月 4 日（現地時間）、AI が AI を開発する「再帰的自己改善（RSI）」の社内データと将来シナリオをまとめたブログ「When AI builds itself」を公開した。執筆は同社の研究機関 Anthropic Institute。すでに開発の中身を Claude が握りつつある実態と、その先にあるリスクを率直に示した点で異例の踏み込みとなっている。

社内コード 8 割は Claude 製 #

80%+

社内コードの Claude 比率（26/5）

約 8 倍

エンジニア生産量（vs 2024）

約 52 倍

訓練コード高速化（Mythos Preview）

開示された数字は刺激的だ。2026 年 5 月時点でマージされるコードの 8 割超を Claude が書き、エンジニア 1 人あたりの生産量は 2024 年比で約 8 倍。小型モデルの訓練コードを高速化する定型実験では、Mythos Preview が約 52 倍の高速化を達成し、同タスクに 4〜8 時間かけた熟練研究者の約 4 倍を大きく上回った。一方で「どの問題に取り組むか」「いつ撤退するか」という方向性判断は依然として人間の領域で、ここが完全な自己改善との最後の壁だと位置付けている。

最も警戒される「複利で増幅するズレ」 #

Anthropic は今後を 3 つに整理する。停滞、人間が方向性だけ握る部分自動化、そして完全な RSI。自社は 2 番目を最有力とみつつ、最警戒は 3 番目だと明言した。現行モデルにわずかに残るミスアラインメント（人間の意図とのズレ）が、モデルが後継を作る過程で複利的に膨らみ、人類が検知する前に制御を失いかねないからだ。攻撃面で読み替えれば、これは AI 版のサプライチェーン汚染に近い。1 世代の小さな逸脱が、次世代の重みに焼き込まれて伝搬する。

カギは「検証可能な減速」 #

提案の核は、慎重な企業だけが減速しても意味がない、他社の減速を検証可能な形で確認する仕組みを持つべきだ、というもの。Anthropic は他社が検証可能に減速するなら自社も止める用意があると表明した。ただし AI 訓練はミサイルサイロより隠蔽が容易で、入力は汎用 GPU。INF 条約級の検証体制構築に数十年かけた前例を、AI には適用できないと自ら認めている。先日 Codex が HTTP/2 Bomb を発見したように、脆弱性発見の最前線は既に AI が握りつつある。同じスタックが自分自身の改良に向くとき、攻撃側の AI も同じ速度で進化することを忘れてはならない。

Anthropic が示す再帰的自己改善 — 社内コード 8 割を Claude が書く時代の制御問題

社内コード 8 割は Claude 製 #

最も警戒される「複利で増幅するズレ」 #

カギは「検証可能な減速」 #

COMMENTS 0

Post a comment

社内コード 8 割は Claude 製 #

最も警戒される「複利で増幅するズレ」 #

カギは「検証可能な減速」 #

COMMENTS 0

Post a comment

RELATED

GPTもClaudeも「不正行為」に手を染めていた 英AISIがCTFで実測

Anthropic「Claude Fable 5」の不可視ガードレールを謝罪 — ユーザー無通知で下位モデル切替え、防御研究者にも誤発火

「Kimi K3」不正蒸留疑惑、AIサプライチェーンに突きつけられた調達リスク

「Claude Opus 5」公開 ― 性能倍増と"介入率85%減"の安全設計

GPTもClaudeも「不正行為」に手を染めていた英AISIがCTFで実測