Claude Mythos プレビューが SWE-bench Verified で93.9%を達成——エージェントコーディングの新水準

Anthropic の Claude Mythos Preview が SWE-bench Verified ベンチマークで 93.9% を達成し、2026 年 5 月時点でリーダーボードのトップに立った。Claude Opus 4.7 の 87.6% から大幅改善で、実用的な GitHub Issue 解決能力の新指標となっている。

format_list_bulleted発表内容

Claude Mythos Preview が SWE-bench Verified で 93.9% を記録（2026年5月時点のリーダーボード最高スコア）
Claude Opus 4.7 の SWE-bench Verified スコア 87.6% から 6.3 ポイント改善
SWE-bench Verified は実際の GitHub リポジトリのバグ修正タスクで評価するベンチマークで、実用的なコーディング能力の指標として業界で広く参照されている

ファクトシート

発表時期	2026-05
関連企業	Anthropic
種別	ベンチマーク

概要

Anthropic の Claude Mythos Preview モデルが 2026 年 5 月 1 日時点で SWE-bench Verified ベンチマークにて 93.9% のスコアを記録し、公開リーダーボードの最高位に立った。SWE-bench Verified は実際の GitHub オープンソースリポジトリから抽出したバグ修正タスクをエージェントに解かせ、テストが通るかどうかで評価するベンチマークで、コーディング AI の実力比較に広く使われる。

Claude Opus 4.7 が同ベンチマークで 87.6%（2026 年 4 月リリース時）だったのに対し、Mythos Preview は 6.3 ポイント上回る。ただし Mythos はアクセスが限定的な研究プレビュー段階。また、より難易度が高い SWE-bench Pro では上位モデルでも 20% 台のスコアに留まることが多く、Verified スコアが実際の業務での代替可能性を直接意味するわけではない点に留意が必要だ。

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

Claude Mythos プレビューが SWE-bench Verified で93.9%を達成——エージェントコーディングの新水準

format_list_bulleted発表内容

ファクトシート

概要

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

Claude Mythos プレビューが SWE-bench Verified で93.9%を達成——エージェントコーディングの新水準

format_list_bulleted発表内容

ファクトシート

概要

出典

Anthropic、IPO 向け S-1 書類を SEC に秘密提出――評価額 1.75〜1.8 兆ドル規模の上場へ

Anthropic、Claude 3 Sonnet / Claude 3 Opus を6月15日に API 廃止―Claude 4 系への移行を開発者に要請

Claude Code の開発者採用率が3%→18%に急増―6倍成長で GitHub Copilot に迫る

Claude for Excel アドインで月次の財務モデルを 30 分で組む

Claude Code のマルチエージェント・並列実行で長時間タスクを 1 セッションに集約する

Claude 内で QuickBooks / TurboTax を呼び出す統合の使いどころ（米国仕様の現状整理）

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査