Claude Mythos Preview がGPQAベンチマークで94.6%を記録し首位——PhD級科学問題での推論精度でGemini・GPTを上回る

AnthropicのClaude Mythos PreviewがGPQAベンチマーク（PhD級科学問題）で94.6%を記録し、2026年5月時点の各種リーダーボードで首位。Gemini 3.1 Pro（94.3%）・Claude Opus 4.7（94.2%）・GPT-5.4（92.0%）が続く。Mythosは現在限定パートナー向けプレビューのみ提供。

概要

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

AnthropicのClaude Mythos Previewが、GPQA（Graduate-Level Google-Proof Q&A）ベンチマークにおいて94.6%のスコアを記録し、2026年5月時点の各リーダーボードで最高スコアとなっている。Mythosはサイバーセキュリティ特化型として発表されたAnthropicの最新・最強モデルで、現在は限定パートナー向けのプレビュー段階にある。GPQA Diamondでは、Gemini 3.1 Pro Preview（94.3%）・Claude Opus 4.7（94.2%）・GPT-5.4（92.0%）・GPT-5.3 Codex（91.5%）と、90%超のモデルが複数並ぶ高水準の競争状態になっている。

事実のポイント

Claude Mythos Preview: GPQAベンチマーク 94.6% で2026年5月時点のリーダーボード首位
上位モデルの比較（2026年5月時点）:
- Claude Mythos Preview: 94.6%（Anthropic）
- Gemini 3.1 Pro Preview: 94.3%（Google DeepMind）
- Claude Opus 4.7: 94.2%（Anthropic）
- GPT-5.4: 92.0%（OpenAI）
- GPT-5.3 Codex: 91.5%（OpenAI）
Mythosは限定提供: 現在は限定パートナー向けプレビューのみで、一般公開・API提供は未定
サイバーセキュリティ特化: Mythosは高度なサイバーセキュリティ用途向けに発表されており、27年間発見されなかったゼロデイ脆弱性を発見したとの事例も報告されている

用語・背景の補足

GPQA（Graduate-Level Google-Proof Q&A）: 生物学・物理学・化学のPhD級専門問題448問で構成される推論力評価ベンチマーク。Google検索やWikipediaを参照しても正解しにくいよう設計されており、該当分野の非専門PhD取得者の正解率は約34%。現在のトップモデルが90%超を記録していることは、AI推論力の急速な向上を示す指標として引用される。

GPQA-Diamond: GPQA問題セットの中で特に難易度の高いサブセット（198問）。各モデルの上限値を測定するために使われることが多い。

Claude Mythos: Anthropicが2026年に発表した最新フラッグシップモデル。一般公開前のプレビューとして、審査済みの限定パートナーにのみ提供されている。サイバーセキュリティ分野での卓越した能力が強調されている。

注意点

ベンチマークスコアはリーダーボードごとに評価方法・タイミングが異なり、一部で異なる結果が報告されている
GPQA等のベンチマーク性能と、特定の実業務での有用性は必ずしも比例しない。実際のユースケースでの評価が重要
Claude Mythos Previewは2026年5月時点で限定パートナー向けのみ。一般ユーザー向けの提供スケジュールは未公表

編集部見解

（追記予定）

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

概要

事実のポイント

用語・背景の補足

注意点

編集部見解

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

Claude Mythos Preview がGPQAベンチマークで94.6%を記録し首位——PhD級科学問題での推論精度でGemini・GPTを上回る

概要

事実のポイント

用語・背景の補足

注意点

編集部見解

出典

Microsoft、自社 AI モデル群「MAI」を公開――画像・音声・文字起こし分野で OpenAI 依存を削減へ

Microsoft 365 Copilot が大規模リデザイン――タスク認識型ワークスペースを導入・読み込み時間 50% 削減

Microsoft Build 2026――Project Polaris・Windows Agent Framework 公開でコーディング AI の内製化加速

税理士事務所 AI 導入ロードマップ — 6 ヶ月で 5 業務を変える

弁護士事務所 AI 導入ロードマップ — リーガルテック × 中小事務所で守秘義務と両立する

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査