論文「Credit-Budgeted ICPC-Style Coding」 — エージェントが「決定ごとに支払う」予算経済型 USACOArena を提案

Lingfeng Zhou 氏らが 2026 年 4 月 11 日に arXiv へ投稿。生成トークン・ローカルテスト・経過時間が固定予算から差引される USACOArena を発表。最先端エージェント群でも精度とコストの最適バランスを取れず、経路依存的・発散的挙動を示すと報告。

format_list_bulleted発表内容

既存の自律型コーディングエージェント評価は無制限のリソース環境を前提としていた問題に着目
USACOArena は ICPC スタイルの対話型競技プログラミング環境で「クレジット経済」を導入
生成トークン・ローカルテスト・経過時間が固定予算から差引される設計
最先端エージェント単体およびエージェント群を評価したところ、精度とコスト効率の最適バランスを取れていないことを観察
経路依存的で発散的な挙動も観察され、リソース認識型エージェント設計の重要性を主張

ファクトシート

公開日	2026-04-11
著者	Lingfeng Zhou, Junhao Shi, Jin Gao, Dequan Wang
発表先	arXiv (cs.AI)
論文ID	arXiv:2604.10182
分野	コード生成エージェント / リソース制約評価
主要結果	現状の SOTA エージェントは予算下で精度・コスト最適バランスを実現できず

概要

AI エージェントがコーディングコンテストを解く能力は急速に向上しているが、従来の評価環境は「何回でも試行でき、計算リソースは無制限」という非現実的な前提に立っていた。本論文（2026年4月11日 arXiv 投稿）はその問題意識から出発し、現実の競技プログラミングに近い「クレジット経済」を持つ評価フレームワーク USACOArena を提案した。

USACOArena では生成トークン数・ローカルテスト回数・経過時間がすべて固定予算から差し引かれる。ICPCスタイルの対話型環境で最先端エージェントを評価したところ、精度とコスト効率のトレードオフを最適化できているエージェントはなく、経路依存的・発散的な挙動も観察されたという。

この結果は「現行 SOTA エージェントは無制限リソース下では強いが、制約付き環境では脆い」という重要な示唆を持つ。実際のビジネス利用では API コストや処理時間が重要なため、リソース認識型エージェント設計の研究に実用的な問いを投げかけている。

ポイント

既存の自律型コーディングエージェント評価は無制限のリソース環境を前提としていた問題に着目
USACOArena は ICPC スタイルの対話型競技プログラミング環境で「クレジット経済」を導入
生成トークン・ローカルテスト・経過時間が固定予算から差引される設計
最先端エージェント単体およびエージェント群を評価したところ、精度とコスト効率の最適バランスを取れていないことを観察
経路依存的で発散的な挙動も観察され、リソース認識型エージェント設計の重要性を主張

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

論文「Credit-Budgeted ICPC-Style Coding」 — エージェントが「決定ごとに支払う」予算経済型 USACOArena を提案

format_list_bulleted発表内容

ファクトシート

概要

ポイント

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

論文「Credit-Budgeted ICPC-Style Coding」 — エージェントが「決定ごとに支払う」予算経済型 USACOArena を提案

format_list_bulleted発表内容

ファクトシート

概要

ポイント

出典

Canopy、税理士事務所向け AI実行レイヤー「Canopy Coworker」を発表

Mistral AI、Medium 3.5 と Le Chat の Work Mode を発表

JPMorgan Chase CIO、AI戦略と198億ドル技術予算を公表

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

「ある業務コストが 1/100 になる競合」と戦えない時代へ｜AI 導入が選択肢でなく前提条件になる構造

組織への AI 導入が進まない 4 つの構造課題｜担当者が自分ごと化しない理由と「現状整理＋一括処理」の現実解

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査