articleニュース

Claude Mythos プレビューが SWE-bench Verified で93.9%を達成——エージェントコーディングの新水準

Preview が SWE-bench Verified で 93.9% を達成し、2026 年 5 月時点でリーダーボードのトップに立った。 の 87.6% から大幅改善で、実用的な GitHub Issue 解決能力の新指標となっている。

format_list_bulleted発表内容

  • Preview が SWE-bench Verified で 93.9% を記録(2026年5月時点のリーダーボード最高スコア)
  • の SWE-bench Verified スコア 87.6% から 6.3 ポイント改善
  • SWE-bench Verified は実際の GitHub リポジトリのバグ修正タスクで評価するで、実用的なコーディング能力の指標として業界で広く参照されている

ファクトシート

発表時期 2026-05
関連企業
種別

概要

Preview が 2026 年 5 月 1 日時点で SWE-bench Verified にて 93.9% のスコアを記録し、公開リーダーボードの最高位に立った。SWE-bench Verified は実際の GitHub オープンソースリポジトリから抽出したバグ修正タスクをに解かせ、テストが通るかどうかで評価するベンチマークで、コーディング AI の実力比較に広く使われる。

が同ベンチマークで 87.6%(2026 年 4 月リリース時)だったのに対し、Mythos Preview は 6.3 ポイント上回る。ただし Mythos はアクセスが限定的な研究プレビュー段階。また、より難易度が高い SWE-bench Pro では上位モデルでも 20% 台のスコアに留まることが多く、Verified スコアが実際の業務での代替可能性を直接意味するわけではない点に留意が必要だ。

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。