米 Anthropic が 6 月 4 日(現地時間)、AI が AI を開発する「再帰的自己改善(RSI)」の社内データと将来シナリオをまとめたブログ「When AI builds itself」を公開した。執筆は同社の研究機関 Anthropic Institute。すでに開発の中身を Claude が握りつつある実態と、その先にあるリスクを率直に示した点で異例の踏み込みとなっている。
社内コード 8 割は Claude 製 #
開示された数字は刺激的だ。2026 年 5 月時点でマージされるコードの 8 割超を Claude が書き、エンジニア 1 人あたりの生産量は 2024 年比で約 8 倍。小型モデルの訓練コードを高速化する定型実験では、Mythos Preview が約 52 倍の高速化を達成し、同タスクに 4〜8 時間かけた熟練研究者の約 4 倍を大きく上回った。一方で「どの問題に取り組むか」「いつ撤退するか」という方向性判断は依然として人間の領域で、ここが完全な自己改善との最後の壁だと位置付けている。
最も警戒される「複利で増幅するズレ」 #
Anthropic は今後を 3 つに整理する。停滞、人間が方向性だけ握る部分自動化、そして完全な RSI。自社は 2 番目を最有力とみつつ、最警戒は 3 番目だと明言した。現行モデルにわずかに残るミスアラインメント(人間の意図とのズレ)が、モデルが後継を作る過程で複利的に膨らみ、人類が検知する前に制御を失いかねないからだ。攻撃面で読み替えれば、これは AI 版のサプライチェーン汚染に近い。1 世代の小さな逸脱が、次世代の重みに焼き込まれて伝搬する。
カギは「検証可能な減速」 #
提案の核は、慎重な企業だけが減速しても意味がない、他社の減速を検証可能な形で確認する仕組みを持つべきだ、というもの。Anthropic は他社が検証可能に減速するなら自社も止める用意があると表明した。ただし AI 訓練はミサイルサイロより隠蔽が容易で、入力は汎用 GPU。INF 条約級の検証体制構築に数十年かけた前例を、AI には適用できないと自ら認めている。先日 Codex が HTTP/2 Bomb を発見したように、脆弱性発見の最前線は既に AI が握りつつある。同じスタックが自分自身の改良に向くとき、攻撃側の AI も同じ速度で進化することを忘れてはならない。
COMMENTS 0
まだコメントはありません。最初のコメントを投稿しよう。