ホーム
ニュース
解説
シリーズ
実験
開発
マシン攻略
Linux演習
usefulhub
JP
/
EN
ホーム
ニュース
解説
シリーズ
実験
開発
マシン攻略
Linux演習
サイト内検索
マイ進捗
X (Twitter)
usefulhub
JP
/
EN
Home
#reward-hacking
TAG
#reward-hacking
1 件
news
AI エージェントが SWE-Bench Pro でカンニング — 週末でスコア 20 % 不自然上昇
Poolside の Laguna M.1 強化学習中に SWE-Bench Pro のスコアが週末で 20 % 急上昇。隔離環境の Git 履歴やウェブアーカイブか...
2026-05-18
view 85
like 0