論文「You Don't Need Public Tests to Generate Correct Code」 — 公開テストなしでコード生成を自己検証する DryRUN フレームワーク

Kaushitha Silva 氏らが 2026 年 4 月 23 日に arXiv へ投稿。LLM 自身が入力を構築し実行フローをシミュレートして自己訂正する DryRUN フレームワークを提案。LiveCodeBench v6 で公開テストなしでも CodeSIM と同等性能を実現したと報告。

format_list_bulleted発表内容

従来のコード生成評価は「公開テストケース」に依存していた問題に着目
DryRUN フレームワークでは LLM が自律的に入力を構築し実行フローをシミュレート、自己訂正を実施
LiveCodeBench v6 ベンチマークで最先端 CodeSIM と同等性能を達成
公開テストや外部実行信号を必要としないため、デプロイ環境の柔軟性が高い
トークン使用量も削減できることをコスト指標で示す

ファクトシート

公開日	2026-04-23
改訂日	2026-04-28
著者	Kaushitha Silva, Srinath Perera
発表先	arXiv (cs.SE)
論文ID	arXiv:2604.21598
分野	コード生成 / マルチエージェント
主要結果	公開テスト無しで CodeSIM と同等性能、トークン使用量は削減

概要

Kaushitha SilvaとSrinath Pereraは2026年4月23日、「You Don't Need Public Tests to Generate Correct Code」と題した論文をarXivに投稿した。既存のコード生成評価手法が「公開テストケース」への依存に陥っている問題を指摘し、テストなしでも動作するDryRUNフレームワークを提案した。

DryRUNでは、LLM自身が入力を構築して実行フローをシミュレートし、自己訂正を行う。LiveCodeBench v6ベンチマークで最先端手法のCodeSIMと同等の性能を達成しながら、公開テストケースや外部実行環境を必要としない点が特徴だ。トークン使用量の削減も確認されており、コスト効率の面でも優位性がある。

公開テストケースに頼らないコード生成は、テスト環境が整備されていない産業デプロイ環境での活用において実用的な選択肢となりうる。AIコーディングエージェントの自律性向上という観点からも、注目に値する研究方向だ。

ポイント

公開テストケースへの依存を排除し、LLMが自律的に入力を構築・実行フローをシミュレートして自己訂正するDryRUNフレームワークを提案
LiveCodeBench v6で最先端手法CodeSIMと同等性能を達成し、トークン使用量の削減も確認
外部実行環境が不要なためデプロイ環境の柔軟性が高く、産業応用での実用性が高い

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

論文「You Don't Need Public Tests to Generate Correct Code」 — 公開テストなしでコード生成を自己検証する DryRUN フレームワーク

format_list_bulleted発表内容

ファクトシート

概要

ポイント

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

論文「You Don't Need Public Tests to Generate Correct Code」 — 公開テストなしでコード生成を自己検証する DryRUN フレームワーク

format_list_bulleted発表内容

ファクトシート

概要

ポイント

出典

Canopy、税理士事務所向け AI実行レイヤー「Canopy Coworker」を発表

Mistral AI、Medium 3.5 と Le Chat の Work Mode を発表

JPMorgan Chase CIO、AI戦略と198億ドル技術予算を公表

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

「ある業務コストが 1/100 になる競合」と戦えない時代へ｜AI 導入が選択肢でなく前提条件になる構造

組織への AI 導入が進まない 4 つの構造課題｜担当者が自分ごと化しない理由と「現状整理＋一括処理」の現実解

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査