articleニュース

LLMベンチマーク2026:MMLU・HumanEvalが飽和——LiveCodeBenchなど汚染耐性テストへの移行が加速

2026年、主要であるMMLUとHumanEvalがフロンティアで飽和状態に。-5.3 CodexがMMLU 93%に達し差別化が困難に。コンタミネーション(訓練データ汚染)への耐性を持つLiveCodeBenchや実務課題ベースのSWE-benchへの移行が加速している。

format_list_bulleted発表内容

  • MMLU(57学術科目・16,000問)はフロンティアが88%超で飽和、差別化が困難
  • -5.3 CodexはMMLU 93%を記録、主要の差は数ポイント以内
  • HumanEval(164Pythonコーディングタスク)も90%超で飽和——o3が95.2%で最高
  • データ汚染問題:訓練データに問題が含まれる可能性が課題
  • LiveCodeBenchは競技プログラミング新問題を利用し訓練カットオフ後の問題で評価
  • SWE-bench Verifiedが実際のGitHubイシュー解決率を測定する実務的指標として定着

ファクトシート

発表時期 2026-05
関連企業 , , ,
種別 技術動向

概要

2026年、の能力評価に長年使われてきたMMLUとHumanEvalが実質的な飽和状態に達した。MMLUでは主要フロンティアが88〜93%の範囲に集中し、もはや優劣の判断材料にならない。HumanEvalも同様で、o3が95.2%、 4.5が93.0%など90%超が当たり前になっている。最大の懸念は「データ汚染」だ:訓練データに問題が含まれていると、実力ではなく記憶を測定しているに過ぎない。これに対してLiveCodeBenchは、競技プログラミングサイトの新問題をモデル訓練カットオフ後から収集して利用し、汚染耐性を担保している。実務課題としてはSWE-bench Verified(実際のGitHubイシューの解決率)が開発評価の標準として定着しつつあり、(80.8%)や Agentなどが競い合っている。

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。