Autais がお届けするトピック。時事の事実・引用元付き短いまとめ(SEO 軽め・原則更新なし)。
Anthropic の Claude Mythos Preview が SWE-bench Verified ベンチマークで 93.9% を達成し、2026 年 5 月時点でリーダーボードのトップに立った。Claude Opus 4.7 の 87.6% から大幅改善で、実用的な GitHub Issue 解決能力の新指標となっている。
Xinming Tu 氏らが 2026 年 4 月 27 日に arXiv へ投稿。エージェント評価の「失敗」が実はベンチマーク欠陥に起因する事例を指摘し、LLM をベンチマーク監査役として用いる BenchGuard を提案。BIxBench 専門家評価との一致率 83.3% を実現。
Kaushitha Silva 氏らが 2026 年 4 月 23 日に arXiv へ投稿。LLM 自身が入力を構築し実行フローをシミュレートして自己訂正する DryRUN フレームワークを提案。LiveCodeBench v6 で公開テストなしでも CodeSIM と同等性能を実現したと報告。
Ali Al-Kaswan 氏らが 2026 年 4 月 21 日に arXiv へ投稿。仮想化ネットワーク上の現実的 Capture-The-Flag 課題で LLM エージェントを評価する DeepRed ベンチマークを提案。最高性能モデルでもチェックポイント完了率は平均 35% に留まると報告。
Anthropic が Claude Opus 4.7 を 2026 年 4 月 16 日に一般提供開始。コーディングベンチマークで 13% 向上(SWE-bench Verified 87.6%)、最大 3.75MP の高解像度画像対応、タスクバジェット機能を追加し Claude Code のデフォルトモデルへ。
スタンフォード(Stanford) 大学 HAI(Human-Centered Artificial Intelligence)が 2026年4月13日、年次「2026 AI Index Report」を公開。9章400ページ超で、生成AI 普及率が3年で人口の53%に到達(PC・インターネット超え)、米国の Notable Model 数 59 本(中国 35 本)、Foundation Model Transparency Index 平均が 58→40 に低下、と公表。
Lingfeng Zhou 氏らが 2026 年 4 月 11 日に arXiv へ投稿。生成トークン・ローカルテスト・経過時間が固定予算から差引される USACOArena を発表。最先端エージェント群でも精度とコストの最適バランスを取れず、経路依存的・発散的挙動を示すと報告。
Meta の前 Generative AI VP Ahmad Al-Dahle が 2026 年 4 月 7 日、Llama 4 Maverick / Scout がテストセットで学習されたとの噂を否定。「Meta が決してそうしたことはしない」と公式に発信した。
Dat Tran 氏と Douwe Kiela 氏が 2026 年 4 月 2 日に arXiv へ投稿。マルチエージェント LLM システム(MAS)の優位性は計算量増加で説明できると主張し、同じ思考トークン予算下では単一エージェント(SAS)が同等以上の性能を示すことを 3 モデルで実証。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。