ファクトシート
| 公開日 | 2026-04-23 |
|---|---|
| 改訂日 | 2026-04-28 |
| 著者 | Kaushitha Silva, Srinath Perera |
| 発表先 | arXiv (cs.SE) |
| 論文ID | arXiv:2604.21598 |
| 分野 | コード生成 / マルチエージェント |
| 主要結果 | 公開テスト無しで CodeSIM と同等性能、トークン使用量は削減 |
articleニュース
Kaushitha Silva 氏らが 2026 年 4 月 23 日に arXiv へ投稿。LLM 自身が入力を構築し実行フローをシミュレートして自己訂正する DryRUN フレームワークを提案。LiveCodeBench v6 で公開テストなしでも CodeSIM と同等性能を実現したと報告。
| 公開日 | 2026-04-23 |
|---|---|
| 改訂日 | 2026-04-28 |
| 著者 | Kaushitha Silva, Srinath Perera |
| 発表先 | arXiv (cs.SE) |
| 論文ID | arXiv:2604.21598 |
| 分野 | コード生成 / マルチエージェント |
| 主要結果 | 公開テスト無しで CodeSIM と同等性能、トークン使用量は削減 |
Kaushitha SilvaとSrinath Pereraは2026年4月23日、「You Don't Need Public Tests to Generate Correct Code」と題した論文をarXivに投稿した。既存のコード生成評価手法が「公開テストケース」への依存に陥っている問題を指摘し、テストなしでも動作するDryRUNフレームワークを提案した。
DryRUNでは、LLM自身が入力を構築して実行フローをシミュレートし、自己訂正を行う。LiveCodeBench v6ベンチマークで最先端手法のCodeSIMと同等の性能を達成しながら、公開テストケースや外部実行環境を必要としない点が特徴だ。トークン使用量の削減も確認されており、コスト効率の面でも優位性がある。
公開テストケースに頼らないコード生成は、テスト環境が整備されていない産業デプロイ環境での活用において実用的な選択肢となりうる。AIコーディングエージェントの自律性向上という観点からも、注目に値する研究方向だ。
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。