ファクトシート
| 発表時期 | 2026-05 |
|---|---|
| 関連企業 | OpenAI, Anthropic, Google, DeepSeek |
| 種別 | 技術動向 |
articleニュース
2026年、主要LLMベンチマークであるMMLUとHumanEvalがフロンティアモデルで飽和状態に。GPT-5.3 CodexがMMLU 93%に達し差別化が困難に。コンタミネーション(訓練データ汚染)への耐性を持つLiveCodeBenchや実務課題ベースのSWE-benchへの移行が加速している。
| 発表時期 | 2026-05 |
|---|---|
| 関連企業 | OpenAI, Anthropic, Google, DeepSeek |
| 種別 | 技術動向 |
2026年、大規模言語モデルの能力評価に長年使われてきたMMLUとHumanEvalが実質的な飽和状態に達した。MMLUでは主要フロンティアモデルが88〜93%の範囲に集中し、もはや優劣の判断材料にならない。HumanEvalも同様で、o3が95.2%、Claude Sonnet 4.5が93.0%など90%超が当たり前になっている。最大の懸念は「データ汚染」だ:訓練データにベンチマーク問題が含まれていると、実力ではなく記憶を測定しているに過ぎない。これに対してLiveCodeBenchは、競技プログラミングサイトの新問題をモデル訓練カットオフ後から収集して利用し、汚染耐性を担保している。実務課題としてはSWE-bench Verified(実際のGitHubイシューの解決率)が開発ツール評価の標準として定着しつつあり、Claude Code(80.8%)やCopilot Agentなどが競い合っている。
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。