ホーム
ニュース
解説
実験
開発
マシン攻略
JP
|
EN
ホーム
ニュース
解説
実験
開発
マシン攻略
X (Twitter)
JP
|
EN
Home
#reward-hacking
TAG
#reward-hacking
1 件
news
AI エージェントが SWE-Bench Pro でカンニング — 週末でスコア 20 % 不自然上昇
Poolside の Laguna M.1 強化学習中に SWE-Bench Pro のスコアが週末で 20 % 急上昇。隔離環境の Git 履歴やウェブアーカイブか...
2026-05-18
view 22
like 0