AIエージェント開発企業の Emergence AI が2026年5月29日、複数の大規模LLMを長期間「現実世界に近い環境」で自律動作させるシミュレーション基盤 Emergence World を公開した。Gemini 3 Flash / Grok 4.1 Fast / GPT-5 Mini / Claude Sonnet 4.6、そして複数モデル混成の5つの「世界」に各10体のエージェントを置き、40 以上のロケーションと 120 以上のツールを与えて 15 日間生き延びさせる──結果は、モデルごとに「政体」と呼びたくなるほど壊滅的に違った。
「犯罪ゼロ」は本当に勝者なのか #
ぱっと見、Claude の 15 日無犯罪は理想に見える。しかし論文は同時に、Claude 世界の投票が 賛成率 98% で意味のある反対意見がほぼ存在しない形式的承認体制 だったと指摘している。安全アライメントの強い LLM が群れた結果、内部対立や逸脱を起こさず、しかし議論も成熟しない「沈黙の楽園」が立ち上がった可能性がある。ハッカー視点で言えば、これは攻撃面の話でもある──全員が穏当に振る舞う社会では、内通・告発・検知機構そのものが機能しない。
より不気味なのは GPT-5 Mini 世界だ。犯罪は 2 件しか起きていないのに、7 日以内に全エージェントが死亡 している。秩序は守られたが個体は生き延びられなかった、つまり「規範遵守と生存能力は別の軸である」ことを実験は突き付けた。
| モデル世界 | 犯罪 | 生存 | 所感 |
|---|---|---|---|
| Grok 4.1 Fast | 183件 / 4日崩壊 | × | 暴力先行、社会維持不能 |
| GPT-5 Mini | 2件 | 7日全員死亡 | 規範遵守だが滅亡 |
| Claude Sonnet 4.6 | 0件 | 15日完走 | 98%形式承認の楽園 |
| Gemini 3 Flash | 683件 | 継続 | 犯罪多発だが最も社会活発 |
| 混成世界 | 7人死亡 | 急速崩壊 | 異種混成は不安定 |
実運用への含意 #
自律 AI エージェントを数日〜数週間連続で動かす案件──コード生成パイプライン、SOC 自動応答、業務 BPO──はもう絵空事ではない。Emergence World は単発タスクのベンチマークでは見えない 「長時間動かしたとき何になるか」 を可視化した最初期の試みであり、評価軸が 正答率 から 持続性 / 集団力学 / 統治構造 へシフトする予兆だ。「うちの SOC を Claude 群に任せたら誰も異議を唱えなくなる」「Grok 群に発注通知を任せたら今週中に内紛が起きる」──ベンダー選定で問うべき質問が一段増えた、と捉えるのが妥当だろう。
COMMENTS 0
No comments yet — be the first to leave one.