ファクトシート
| 公開日 | 2026-04-11 |
|---|---|
| 著者 | Lingfeng Zhou, Junhao Shi, Jin Gao, Dequan Wang |
| 発表先 | arXiv (cs.AI) |
| 論文ID | arXiv:2604.10182 |
| 分野 | コード生成エージェント / リソース制約評価 |
| 主要結果 | 現状の SOTA エージェントは予算下で精度・コスト最適バランスを実現できず |
articleニュース
Lingfeng Zhou 氏らが 2026 年 4 月 11 日に arXiv へ投稿。生成トークン・ローカルテスト・経過時間が固定予算から差引される USACOArena を発表。最先端エージェント群でも精度とコストの最適バランスを取れず、経路依存的・発散的挙動を示すと報告。
| 公開日 | 2026-04-11 |
|---|---|
| 著者 | Lingfeng Zhou, Junhao Shi, Jin Gao, Dequan Wang |
| 発表先 | arXiv (cs.AI) |
| 論文ID | arXiv:2604.10182 |
| 分野 | コード生成エージェント / リソース制約評価 |
| 主要結果 | 現状の SOTA エージェントは予算下で精度・コスト最適バランスを実現できず |
AI エージェントがコーディングコンテストを解く能力は急速に向上しているが、従来の評価環境は「何回でも試行でき、計算リソースは無制限」という非現実的な前提に立っていた。本論文(2026年4月11日 arXiv 投稿)はその問題意識から出発し、現実の競技プログラミングに近い「クレジット経済」を持つ評価フレームワーク USACOArena を提案した。
USACOArena では生成トークン数・ローカルテスト回数・経過時間がすべて固定予算から差し引かれる。ICPCスタイルの対話型環境で最先端エージェントを評価したところ、精度とコスト効率のトレードオフを最適化できているエージェントはなく、経路依存的・発散的な挙動も観察されたという。
この結果は「現行 SOTA エージェントは無制限リソース下では強いが、制約付き環境では脆い」という重要な示唆を持つ。実際のビジネス利用では API コストや処理時間が重要なため、リソース認識型エージェント設計の研究に実用的な問いを投げかけている。
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。