SWE-bench Verifiedリーダーボード、Claude Mythos Previewが93.9%で首位——Codex 5.3は85%

SWE-bench Verifiedの2026年4月末時点のリーダーボードでは、Claude Mythos Previewが93.9%で首位、Claude Opus 4.7が87.6%、GPT-5.3 Codexが85%で続く構図となっている。

format_list_bulleted発表内容

2026年5月1日時点でClaude Mythos Previewが93.9%で首位
Claude Opus 4.7（Adaptive）87.6%、GPT-5.3 Codex 85%、Claude Opus 4.5 80.9%
Claude Opus 4.6（Thinking）とGPT-5.4が78.20%で並ぶ
SWE-bench Verifiedは500件のPython実問題、人間アノテーターが検証済の精選データセット
Claude Mythosは同一モデルでもより難しいSWE-bench Proでは45.9%にとどまり、訓練データ汚染を含む可能性が指摘されている

ファクトシート

発表時期	2026-04
関連企業	Anthropic、OpenAI
種別	ベンチマーク

概要

※本記事は公開情報をもとに編集部が再構成したサマリです。

AIコーディング能力の代表的ベンチマーク「SWE-bench Verified」のリーダーボードは、2026年5月1日時点でAnthropicのClaude Mythos Previewが93.9%で首位、Claude Opus 4.7（Adaptive）が87.6%、OpenAIのGPT-5.3 Codexが85%で続く構図となった。Claude Opus 4.5（80.9%）の後、Claude Opus 4.6（Thinking）とGPT-5.4が78.20%で並ぶ。SWE-bench VerifiedはOpenAIとの共同で人間アノテーターが内容を検証した500件のPython実問題で、SWE-bench全体から品質をフィルタしたサブセット。一方、より難しい汚染対策版「SWE-bench Pro」ではClaude Mythos Previewのスコアが45.9%にとどまるため、Verified側のスコアには訓練データの記憶が一部寄与している可能性も指摘されている。スコア比較は、難易度・汚染対策の異なるベンチマーク同士で並べて評価することが重要となる。

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

SWE-bench Verifiedリーダーボード、Claude Mythos Previewが93.9%で首位——Codex 5.3は85%

format_list_bulleted発表内容

ファクトシート

概要

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

SWE-bench Verifiedリーダーボード、Claude Mythos Previewが93.9%で首位——Codex 5.3は85%

format_list_bulleted発表内容

ファクトシート

概要

出典

AI モデルリリースが加速 — GPT-5.5 は GPT-5.4 から 49 日後／Anthropic は 70 日で Claude を 3 メジャー更新（2026 年）

2026年5月版LLMベンチマーク比較——GPT-5.5・Claude Opus 4.7・Gemini 3.1 Proが三つ巴の競争

Anthropic、Claude Opus 4.7を一般提供——高難度コーディングで「xhigh effort」モード導入

MCP で AI と業務システムを連携｜Claude × Notion × Slack の最小自動化構成

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

「ある業務コストが 1/100 になる競合」と戦えない時代へ｜AI 導入が選択肢でなく前提条件になる構造

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査