articleニュース
Claude Mythos Preview がGPQAベンチマークで94.6%を記録し首位——PhD級科学問題での推論精度でGemini・GPTを上回る
AnthropicのClaude Mythos PreviewがGPQAベンチマーク(PhD級科学問題)で94.6%を記録し、2026年5月時点の各種リーダーボードで首位。Gemini 3.1 Pro(94.3%)・Claude Opus 4.7(94.2%)・GPT-5.4(92.0%)が続く。Mythosは現在限定パートナー向けプレビューのみ提供。
概要
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
AnthropicのClaude Mythos Previewが、GPQA(Graduate-Level Google-Proof Q&A)ベンチマークにおいて94.6%のスコアを記録し、2026年5月時点の各リーダーボードで最高スコアとなっている。Mythosはサイバーセキュリティ特化型として発表されたAnthropicの最新・最強モデルで、現在は限定パートナー向けのプレビュー段階にある。GPQA Diamondでは、Gemini 3.1 Pro Preview(94.3%)・Claude Opus 4.7(94.2%)・GPT-5.4(92.0%)・GPT-5.3 Codex(91.5%)と、90%超のモデルが複数並ぶ高水準の競争状態になっている。
事実のポイント
- Claude Mythos Preview: GPQAベンチマーク 94.6% で2026年5月時点のリーダーボード首位
- 上位モデルの比較(2026年5月時点):
- Claude Mythos Preview: 94.6%(Anthropic)
- Gemini 3.1 Pro Preview: 94.3%(Google DeepMind)
- Claude Opus 4.7: 94.2%(Anthropic)
- GPT-5.4: 92.0%(OpenAI)
- GPT-5.3 Codex: 91.5%(OpenAI)
- Mythosは限定提供: 現在は限定パートナー向けプレビューのみで、一般公開・API提供は未定
- サイバーセキュリティ特化: Mythosは高度なサイバーセキュリティ用途向けに発表されており、27年間発見されなかったゼロデイ脆弱性を発見したとの事例も報告されている
用語・背景の補足
GPQA(Graduate-Level Google-Proof Q&A): 生物学・物理学・化学のPhD級専門問題448問で構成される推論力評価ベンチマーク。Google検索やWikipediaを参照しても正解しにくいよう設計されており、該当分野の非専門PhD取得者の正解率は約34%。現在のトップモデルが90%超を記録していることは、AI推論力の急速な向上を示す指標として引用される。
GPQA-Diamond: GPQA問題セットの中で特に難易度の高いサブセット(198問)。各モデルの上限値を測定するために使われることが多い。
Claude Mythos: Anthropicが2026年に発表した最新フラッグシップモデル。一般公開前のプレビューとして、審査済みの限定パートナーにのみ提供されている。サイバーセキュリティ分野での卓越した能力が強調されている。
注意点
- ベンチマークスコアはリーダーボードごとに評価方法・タイミングが異なり、一部で異なる結果が報告されている
- GPQA等のベンチマーク性能と、特定の実業務での有用性は必ずしも比例しない。実際のユースケースでの評価が重要
- Claude Mythos Previewは2026年5月時点で限定パートナー向けのみ。一般ユーザー向けの提供スケジュールは未公表
編集部見解
(追記予定)
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。