articleニュース
MITのRLCR手法、LLMの未較正エラーを92%削減しISO/NISTが採用検討
MIT CSAILが開発したRLCR(Reinforcement Learning with Calibration Rewards)手法が、大規模言語モデルの「未較正エラー」(過信・過小評価)を92%削減したと発表。ISO・NISTが「AIの信頼性基準」への組み込みを検討している。
概要
マサチューセッツ工科大学(MIT)コンピュータ科学・人工知能研究所(CSAIL)は2026年4月23日、大規模言語モデル(LLM)の「較正誤差(Calibration Error)」を大幅に削減する新手法「RLCR(Reinforcement Learning with Calibration Rewards)」を発表した。実験では、モデルの自信度が実際の正解率と乖離している「未較正エラー」を92%削減することに成功したとされる。ISO(国際標準化機構)およびNIST(米国標準技術研究所)が、それぞれの「AI信頼性基準」(AIトラストワーシネス標準)への組み込みを検討していることも明らかになった。
事実のポイント
- RLCRは強化学習の報酬関数に「較正精度(Calibration Accuracy)」を組み込む手法
- モデルが「90%自信がある」と言ったとき実際に90%の確率で正解するよう訓練する
- 実験では複数のオープンソースLLMで未較正エラーを92%削減を達成(ベースライン比)
- ISO/IEC JTC 1/SC 42(AI国際標準委員会)がAI信頼性評価基準への適用を議論中
- NIST AI RMF(リスク管理フレームワーク)の次期改訂版での採用が検討されている
- 実用面では、医療診断・法務判断支援・金融リスク評価などの高リスク業務での応用が期待される
用語・背景の補足
較正誤差(Calibration Error): AIモデルの「自信度の出力」と「実際の正解率」の乖離を指す。たとえばモデルが「95%の自信がある」と述べた回答の実際の正解率が60%だった場合、較正誤差が大きい状態。ハルシネーション(事実の捏造)とは別の問題だが、現場での信頼性評価に直結する。
RLHF vs RLCR: 現在主流の強化学習手法RLHF(Human Feedbackによる強化学習)は「人間好みの回答」を最適化するが、自信度の較正は目標に含まれていない。RLCRは較正精度を報酬に加える点が新しい。
NIST AI RMF: 米国政府が策定したAIリスク管理フレームワーク。多くの企業がAI利用の内部基準策定の参考にしており、その改訂は業界への影響が大きい。
注意点
- 発表は学術論文であり、実際の商用LLMへの適用・効果は確認中の段階
- 「92%削減」は特定のベンチマーク・実験条件での数値であり、実業務での効果は異なる可能性がある
- ISO/NISTへの採用は現在「検討中」であり、正式採用の時期は未確定
編集部見解
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。