articleニュース
Microsoft、推論特化小型モデル「Phi-4-reasoning-plus」を公開——14B パラメータで大型モデルに匹敵する推論性能
Microsoft Research が推論に特化した小型言語モデル「Phi-4-reasoning-plus」を公開。約 14B パラメータながら Chain-of-Thought 強化学習により数学・コーディング・論理推論分野で GPT-4o クラスの性能を発揮し、エッジ・オンプレミス展開でも高品質な推論が可能となる。
概要
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
Microsoft Research は 2026 年 4 月、推論処理に特化した小型言語モデル「Phi-4-reasoning-plus」を Hugging Face 上でオープンウェイト公開した。パラメータ数は約 140 億(14B)と大型モデルより大幅に小さいながら、Chain-of-Thought(思考連鎖)強化学習と合成データによる学習で、数学・コーディング・論理推論タスクにおいて GPT-4o・Claude 3.5 Sonnet クラスのベンチマーク性能を達成したと発表している。
事実のポイント
- モデル名: Phi-4-reasoning-plus(Phi-4-reasoning の強化版)
- パラメータ数: 約 14B(140 億)
- ライセンス: MIT ライセンス(商用利用可・オープンウェイト)
- 主なベンチマーク結果(公表値):
- MATH-500: 97.3%(GPT-4o は 94.5%)
- AIME 2025: 78.2%(難関数学競技問題)
- HumanEval(コーディング): 91.4%
- 学習手法: 大型モデルからの知識蒸留(Distillation)+推論プロセス特化の強化学習(Process Reward Model)
- 主な用途想定: 数理計算・コード生成・法的文書分析など推論精度が要求されるオンプレミス・エッジ展開
- Azure AI Studio および Azure AI Foundry 経由での API 利用にも対応
用語・背景の補足
Chain-of-Thought(CoT)強化学習: AI モデルが答えを直接出力するのではなく、「考えるプロセス(思考連鎖)」を段階的に生成してから最終回答を出す手法を強化するトレーニング方式。推論問題での正確性が大幅に向上することが知られており、OpenAI の o1/o3 シリーズや Google の Gemini Thinking でも採用されている。
Process Reward Model(PRM): 最終的な答えの正しさだけでなく、推論の各ステップが正しいかどうかを評価してモデルを訓練する手法。数学・論理推論での「途中の計算ミス」を減らす効果がある。
オープンウェイト: モデルの重みパラメータが公開されており、ローカル環境でもモデルを実行できる状態を指す。クローズドな API 経由のみのモデルと異なり、カスタマイズ・ファインチューニング・オフライン利用が可能。
注意点
- ベンチマーク値は Microsoft 公表のものであり、独立した第三者評価との差異が生じる場合がある
- 推論時に生成する思考連鎖(Thinking tokens)がトークン消費を増加させるため、API 利用コストに注意が必要
- 日本語の推論タスクにおける性能は英語・数学タスクに比べて相対的に低い可能性がある
編集部見解
(追記予定)
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。