LLMベンチマーク2026：MMLU・HumanEvalが飽和——LiveCodeBenchなど汚染耐性テストへの移行が加速

2026年、主要LLMベンチマークであるMMLUとHumanEvalがフロンティアモデルで飽和状態に。GPT-5.3 CodexがMMLU 93%に達し差別化が困難に。コンタミネーション（訓練データ汚染）への耐性を持つLiveCodeBenchや実務課題ベースのSWE-benchへの移行が加速している。

format_list_bulleted発表内容

MMLU（57学術科目・16,000問）はフロンティアモデルが88%超で飽和、差別化が困難
GPT-5.3 CodexはMMLU 93%を記録、主要モデルの差は数ポイント以内
HumanEval（164Pythonコーディングタスク）も90%超で飽和——o3が95.2%で最高
データ汚染問題：訓練データにベンチマーク問題が含まれる可能性が課題
LiveCodeBenchは競技プログラミング新問題を利用し訓練カットオフ後の問題で評価
SWE-bench Verifiedが実際のGitHubイシュー解決率を測定する実務的指標として定着

ファクトシート

発表時期	2026-05
関連企業	OpenAI, Anthropic, Google, DeepSeek
種別	技術動向

概要

2026年、大規模言語モデルの能力評価に長年使われてきたMMLUとHumanEvalが実質的な飽和状態に達した。MMLUでは主要フロンティアモデルが88〜93%の範囲に集中し、もはや優劣の判断材料にならない。HumanEvalも同様で、o3が95.2%、Claude Sonnet 4.5が93.0%など90%超が当たり前になっている。最大の懸念は「データ汚染」だ：訓練データにベンチマーク問題が含まれていると、実力ではなく記憶を測定しているに過ぎない。これに対してLiveCodeBenchは、競技プログラミングサイトの新問題をモデル訓練カットオフ後から収集して利用し、汚染耐性を担保している。実務課題としてはSWE-bench Verified（実際のGitHubイシューの解決率）が開発ツール評価の標準として定着しつつあり、Claude Code（80.8%）やCopilot Agentなどが競い合っている。

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

LLMベンチマーク2026：MMLU・HumanEvalが飽和——LiveCodeBenchなど汚染耐性テストへの移行が加速

format_list_bulleted発表内容

ファクトシート

概要

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

LLMベンチマーク2026：MMLU・HumanEvalが飽和——LiveCodeBenchなど汚染耐性テストへの移行が加速

format_list_bulleted発表内容

ファクトシート

概要

出典

Mistral AI、SWE-Bench 77.6%の「Medium 3.5」とリモートエージェント「Vibe」を同時公開

Meta Llama 5、オープンウェイトの新フロンティアへ——クローズドモデルと肩を並べる性能を目指す

RAG（検索拡張生成）が企業本番導入フェーズへ——2026年の主要アーキテクチャと成果

経営者のための生成 AI モデル選定｜Claude／ChatGPT／Gemini を比較する 3 つの判断軸

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

「ある業務コストが 1/100 になる競合」と戦えない時代へ｜AI 導入が選択肢でなく前提条件になる構造

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査