ファクトシート
| 発表時期 | 2026-05 |
|---|---|
| 関連企業 | Anthropic |
| 種別 | ベンチマーク |
articleニュース
Anthropic の Claude Mythos Preview が SWE-bench Verified ベンチマークで 93.9% を達成し、2026 年 5 月時点でリーダーボードのトップに立った。Claude Opus 4.7 の 87.6% から大幅改善で、実用的な GitHub Issue 解決能力の新指標となっている。
| 発表時期 | 2026-05 |
|---|---|
| 関連企業 | Anthropic |
| 種別 | ベンチマーク |
Anthropic の Claude Mythos Preview モデルが 2026 年 5 月 1 日時点で SWE-bench Verified ベンチマークにて 93.9% のスコアを記録し、公開リーダーボードの最高位に立った。SWE-bench Verified は実際の GitHub オープンソースリポジトリから抽出したバグ修正タスクをエージェントに解かせ、テストが通るかどうかで評価するベンチマークで、コーディング AI の実力比較に広く使われる。
Claude Opus 4.7 が同ベンチマークで 87.6%(2026 年 4 月リリース時)だったのに対し、Mythos Preview は 6.3 ポイント上回る。ただし Mythos はアクセスが限定的な研究プレビュー段階。また、より難易度が高い SWE-bench Pro では上位モデルでも 20% 台のスコアに留まることが多く、Verified スコアが実際の業務での代替可能性を直接意味するわけではない点に留意が必要だ。
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。