articleニュース

2026年5月版LLMベンチマーク比較——GPT-5.5・Claude Opus 4.7・Gemini 3.1 Proが三つ巴の競争

2026年5月時点の 3.1 Proが激しく競合。コーディングは 4が首位(SWE-bench 75%)、科学的はGemini 3.1 Pro(GPQA 94.3%)、総合汎用性はGPT-5.5が優位。

format_list_bulleted発表内容

  • 総合知性: xhigh > GPT-5.5 high > max > 3.1 Pro
  • コーディング(SWE-bench): 4が75%でトップ
  • 科学的(GPQA): 3.1 Proが94.3%でリード
  • コンピュータ操作(OSWorld):-5.4が75%で人間エキスパートを上回る
  • 最適設計は「タスク特性に応じてをルーティングするマルチモデル構成」

ファクトシート

発表時期 2026-05
関連企業 , , ,
種別 技術動向

概要

2026年5月時点のの激戦が続いている。総合知性では(xhigh設定)が最高評価を受けるが、 3.1 Proが迫る。タスク特化では各社に強みがあり、コーディング(SWE-bench)では 4が75%で首位、科学的(GPQA)はGemini 3.1 Proが94.3%でリード、コンピュータ操作(OSWorld)は-5.4が75%で人間エキスパートを上回った。実務における最適解は特定のに統一するのではなく、タスクの複雑さ・レイテンシ要件・コストに応じて複数モデルへルーティングする「マルチモデルアーキテクチャ」が主流になりつつある。

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。