トピック / #ベンチマーク | レポート・コラム

2026.05.01 US

Claude Mythos プレビューが SWE-bench Verified で93.9%を達成——エージェントコーディングの新水準

Anthropic の Claude Mythos Preview が SWE-bench Verified ベンチマークで 93.9% を達成し、2026 年 5 月時点でリーダーボードのトップに立った。Claude Opus 4.7 の 87.6% から大幅改善で、実用的な GitHub Issue 解決能力の新指標となっている。

#Anthropic #Claude Code #ベンチマーク label+2

campaignトピック article ニュース

2026.04.27 US

論文「BenchGuard: Who Guards the Benchmarks?」 — LLM ベンチマーク自体を LLM で監査するフレームワークを提案

Xinming Tu 氏らが 2026 年 4 月 27 日に arXiv へ投稿。エージェント評価の「失敗」が実はベンチマーク欠陥に起因する事例を指摘し、LLM をベンチマーク監査役として用いる BenchGuard を提案。BIxBench 専門家評価との一致率 83.3% を実現。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.23 GLOBAL

論文「You Don't Need Public Tests to Generate Correct Code」 — 公開テストなしでコード生成を自己検証する DryRUN フレームワーク

Kaushitha Silva 氏らが 2026 年 4 月 23 日に arXiv へ投稿。LLM 自身が入力を構築し実行フローをシミュレートして自己訂正する DryRUN フレームワークを提案。LiveCodeBench v6 で公開テストなしでも CodeSIM と同等性能を実現したと報告。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.21 EU

論文「Do Agents Dream of Root Shells?」 — CTF 課題で LLM エージェントの部分達成を評価する DeepRed ベンチマーク

Ali Al-Kaswan 氏らが 2026 年 4 月 21 日に arXiv へ投稿。仮想化ネットワーク上の現実的 Capture-The-Flag 課題で LLM エージェントを評価する DeepRed ベンチマークを提案。最高性能モデルでもチェックポイント完了率は平均 35% に留まると報告。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.16 US

Claude Opus 4.7 リリース——SWE-bench Verified 87.6%・高解像度ビジョン・タスクバジェット対応

Anthropic が Claude Opus 4.7 を 2026 年 4 月 16 日に一般提供開始。コーディングベンチマークで 13% 向上（SWE-bench Verified 87.6%）、最大 3.75MP の高解像度画像対応、タスクバジェット機能を追加し Claude Code のデフォルトモデルへ。

#Anthropic #Claude Code #ベンチマーク label+2

campaignトピック article ニュース

2026.04.13 US

スタンフォード HAI「2026 AI Index Report」公開、生成AI普及は3年で53%に到達・米国主要モデル59本

スタンフォード（Stanford）大学 HAI（Human-Centered Artificial Intelligence）が 2026年4月13日、年次「2026 AI Index Report」を公開。9章400ページ超で、生成AI 普及率が3年で人口の53%に到達（PC・インターネット超え）、米国の Notable Model 数 59 本（中国 35 本）、Foundation Model Transparency Index 平均が 58→40 に低下、と公表。

#Market Data #ベンチマーク #Stanford Hai label+2

campaignトピック article ニュース

2026.04.11 CN

論文「Credit-Budgeted ICPC-Style Coding」 — エージェントが「決定ごとに支払う」予算経済型 USACOArena を提案

Lingfeng Zhou 氏らが 2026 年 4 月 11 日に arXiv へ投稿。生成トークン・ローカルテスト・経過時間が固定予算から差引される USACOArena を発表。最先端エージェント群でも精度とコストの最適バランスを取れず、経路依存的・発散的挙動を示すと報告。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.07 US

Ahmad Al-Dahle（前 Meta GenAI VP）、Llama 4 のベンチマーク不正疑惑を否定

Meta の前 Generative AI VP Ahmad Al-Dahle が 2026 年 4 月 7 日、Llama 4 Maverick / Scout がテストセットで学習されたとの噂を否定。「Meta が決してそうしたことはしない」と公式に発信した。

#キーパーソン発言 #Meta #ベンチマーク label+2

campaignトピック article ニュース

2026.04.02 US

論文「Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning」 — 等思考トークン予算下では単一エージェントが優位

Dat Tran 氏と Douwe Kiela 氏が 2026 年 4 月 2 日に arXiv へ投稿。マルチエージェント LLM システム（MAS）の優位性は計算量増加で説明できると主張し、同じ思考トークン予算下では単一エージェント（SAS）が同等以上の性能を示すことを 3 モデルで実証。

#AIエージェント #LLM（大規模言語モデル） #論文 label+2

レポート・コラム：トピック

Claude Mythos プレビューが SWE-bench Verified で93.9%を達成——エージェントコーディングの新水準

論文「BenchGuard: Who Guards the Benchmarks?」 — LLM ベンチマーク自体を LLM で監査するフレームワークを提案

論文「You Don't Need Public Tests to Generate Correct Code」 — 公開テストなしでコード生成を自己検証する DryRUN フレームワーク

論文「Do Agents Dream of Root Shells?」 — CTF 課題で LLM エージェントの部分達成を評価する DeepRed ベンチマーク

Claude Opus 4.7 リリース——SWE-bench Verified 87.6%・高解像度ビジョン・タスクバジェット対応

スタンフォード HAI「2026 AI Index Report」公開、生成AI普及は3年で53%に到達・米国主要モデル59本

論文「Credit-Budgeted ICPC-Style Coding」 — エージェントが「決定ごとに支払う」予算経済型 USACOArena を提案

Ahmad Al-Dahle（前 Meta GenAI VP）、Llama 4 のベンチマーク不正疑惑を否定

論文「Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning」 — 等思考トークン予算下では単一エージェントが優位

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査