articleニュース

SWE-bench Verifiedリーダーボード、Claude Mythos Previewが93.9%で首位——Codex 5.3は85%

SWE-bench Verifiedの2026年4月末時点のリーダーボードでは、 Previewが93.9%で首位、が87.6%、-5.3 Codexが85%で続く構図となっている。

format_list_bulleted発表内容

  • 2026年5月1日時点で Previewが93.9%で首位
  • (Adaptive)87.6%、-5.3 Codex 85%、 Opus 4.5 80.9%
  • Opus 4.6(Thinking)と-5.4が78.20%で並ぶ
  • SWE-bench Verifiedは500件のPython実問題、人間アノテーターが検証済の精選データセット
  • は同一でもより難しいSWE-bench Proでは45.9%にとどまり、訓練データ汚染を含む可能性が指摘されている

ファクトシート

発表時期 2026-04
関連企業
種別

概要

※本記事は公開情報をもとに編集部が再構成したサマリです。

AIコーディング能力の代表的「SWE-bench Verified」のリーダーボードは、2026年5月1日時点で Previewが93.9%で首位、(Adaptive)が87.6%、-5.3 Codexが85%で続く構図となった。 Opus 4.5(80.9%)の後、Claude Opus 4.6(Thinking)とGPT-5.4が78.20%で並ぶ。SWE-bench VerifiedはOpenAIとの共同で人間アノテーターが内容を検証した500件のPython実問題で、SWE-bench全体から品質をフィルタしたサブセット。一方、より難しい汚染対策版「SWE-bench Pro」ではClaude Mythos Previewのスコアが45.9%にとどまるため、Verified側のスコアには訓練データの記憶が一部寄与している可能性も指摘されている。スコア比較は、難易度・汚染対策の異なるベンチマーク同士で並べて評価することが重要となる。

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。