Autais がお届けするトピック。時事の事実・引用元付き短いまとめ(SEO 軽め・原則更新なし)。
Kaushitha Silva 氏らが 2026 年 4 月 23 日に arXiv へ投稿。LLM 自身が入力を構築し実行フローをシミュレートして自己訂正する DryRUN フレームワークを提案。LiveCodeBench v6 で公開テストなしでも CodeSIM と同等性能を実現したと報告。
Xiaolei Ren 氏が 2026 年 4 月 18 日に arXiv へ投稿(4 月 21 日改訂)。攻撃なしの通常生成タスクで「機能正解だが脆弱なコード」が現れる頻度を測定する False Security Confidence (FSC) 概念を提案。3 エコシステム視点で測定境界を整理。
Lingfeng Zhou 氏らが 2026 年 4 月 11 日に arXiv へ投稿。生成トークン・ローカルテスト・経過時間が固定予算から差引される USACOArena を発表。最先端エージェント群でも精度とコストの最適バランスを取れず、経路依存的・発散的挙動を示すと報告。
Worasait Suwannik 氏が 2026 年 4 月 11 日に arXiv へ投稿。公開アルゴリズム実装を 2 段階で改善するパイプラインを提案。Claude Code が再現と改善を担当し、11 実験すべてで改善を達成(各 1 営業日以内)。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。