articleニュース

論文「You Don't Need Public Tests to Generate Correct Code」 — 公開テストなしでコード生成を自己検証する DryRUN フレームワーク

Kaushitha Silva 氏らが 2026 年 4 月 23 日に へ投稿。 自身が入力を構築し実行フローをシミュレートして自己訂正する DryRUN フレームワークを提案。LiveCodeBench v6 で公開テストなしでも CodeSIM と同等性能を実現したと報告。

format_list_bulleted発表内容

  • 従来の評価は「公開テストケース」に依存していた問題に着目
  • DryRUN フレームワークでは が自律的に入力を構築し実行フローをシミュレート、自己訂正を実施
  • LiveCodeBench v6 で最先端 CodeSIM と同等性能を達成
  • 公開テストや外部実行信号を必要としないため、デプロイ環境の柔軟性が高い
  • 使用量も削減できることをコスト指標で示す

ファクトシート

公開日 2026-04-23
改訂日 2026-04-28
著者 Kaushitha Silva, Srinath Perera
発表先 (cs.SE)
論文ID :2604.21598
分野 /
主要結果 公開テスト無しで CodeSIM と同等性能、使用量は削減

概要

Kaushitha SilvaとSrinath Pereraは2026年4月23日、「You Don't Need Public Tests to Generate Correct Code」と題した論文をに投稿した。既存の評価手法が「公開テストケース」への依存に陥っている問題を指摘し、テストなしでも動作するDryRUNフレームワークを提案した。

DryRUNでは、自身が入力を構築して実行フローをシミュレートし、自己訂正を行う。LiveCodeBench v6で最先端手法のCodeSIMと同等の性能を達成しながら、公開テストケースや外部実行環境を必要としない点が特徴だ。使用量の削減も確認されており、コスト効率の面でも優位性がある。

公開テストケースに頼らないコード生成は、テスト環境が整備されていない産業デプロイ環境での活用において実用的な選択肢となりうる。AIコーディングの自律性向上という観点からも、注目に値する研究方向だ。

ポイント

  • 公開テストケースへの依存を排除し、LLMが自律的に入力を構築・実行フローをシミュレートして自己訂正するDryRUNフレームワークを提案
  • LiveCodeBench v6で最先端手法CodeSIMと同等性能を達成し、トークン使用量の削減も確認
  • 外部実行環境が不要なためデプロイ環境の柔軟性が高く、産業応用での実用性が高い

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。