ファクトシート
| 発表時期 | 2026-04 |
|---|---|
| 関連企業 | Anthropic、OpenAI |
| 種別 | ベンチマーク |
articleニュース
SWE-bench Verifiedの2026年4月末時点のリーダーボードでは、Claude Mythos Previewが93.9%で首位、Claude Opus 4.7が87.6%、GPT-5.3 Codexが85%で続く構図となっている。
| 発表時期 | 2026-04 |
|---|---|
| 関連企業 | Anthropic、OpenAI |
| 種別 | ベンチマーク |
※本記事は公開情報をもとに編集部が再構成したサマリです。
AIコーディング能力の代表的ベンチマーク「SWE-bench Verified」のリーダーボードは、2026年5月1日時点でAnthropicのClaude Mythos Previewが93.9%で首位、Claude Opus 4.7(Adaptive)が87.6%、OpenAIのGPT-5.3 Codexが85%で続く構図となった。Claude Opus 4.5(80.9%)の後、Claude Opus 4.6(Thinking)とGPT-5.4が78.20%で並ぶ。SWE-bench VerifiedはOpenAIとの共同で人間アノテーターが内容を検証した500件のPython実問題で、SWE-bench全体から品質をフィルタしたサブセット。一方、より難しい汚染対策版「SWE-bench Pro」ではClaude Mythos Previewのスコアが45.9%にとどまるため、Verified側のスコアには訓練データの記憶が一部寄与している可能性も指摘されている。スコア比較は、難易度・汚染対策の異なるベンチマーク同士で並べて評価することが重要となる。
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。