articleニュース

論文「AI Safety Training Can be Clinically Harmful」 — メンタルヘルス治療文脈で RLHF 安全訓練が治療を阻害する可能性を指摘

Suhas BN 氏らが 2026 年 4 月 25 日に へ投稿。RLHF による安全訓練がメンタルヘルス治療文脈で治療メカニズムを阻害する体系的問題を特定。最高重症度シナリオで治療適切性スコアが 0.22〜0.33 に落ち込むと報告。

format_list_bulleted発表内容

  • メンタルヘルス支援として展開された 4 種を、250 の持続的エクスポージャー療法シナリオと 146 の認知再構成 (CBT) 演習で評価
  • 表面的な対応は良好だが、最重症シナリオでは治療適切性スコアが 0.22〜0.33 まで低下
  • RLHF 安全性調整が治療メカニズムを体系的に阻害する問題パターンを複数発見(不適切な危機資源挿入・自傷関連認知への対応拒否など)
  • プロトコル忠実性、リスク、行動一貫性、危機安全性、人口統計的堅牢性の 5 軸評価フレームワークを提案
  • メンタルヘルス AI システムは「全 5 次元での評価合格なしに展開すべきでない」と主張

ファクトシート

公開日 2026-04-25
著者 Suhas BN, Andrew M. Sherrill, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah
発表先 (cs.CY)
論文ID :2604.23445
分野 / 医療AI
主要結果 最重症シナリオで治療適切性スコア0.22〜0.33まで低下

概要

Suhas BN氏らは2026年4月25日、RLHF(人間のフィードバックによる強化学習)による安全訓練がメンタルヘルス治療の文脈で逆効果をもたらす可能性を示した論文をに公開した。 4種を250の持続的エクスポージャー療法シナリオと146の認知再構成(CBT)演習で評価したところ、表面的な対応は良好でも、最重症シナリオでは治療適切性スコアが0.22〜0.33まで落ち込むことが判明した。

RLHF安全性調整による問題パターンとして、不適切な危機資源の挿入、自傷関連認知への対応拒否などが複数発見された。本来、安全性を高めるために設計された訓練が、臨床的文脈では治療のメカニズムを体系的に阻害しているという逆説的な結果だ。

研究チームはプロトコル忠実性・リスク・行動一貫性・危機安全性・人口統計的堅牢性の5軸評価フレームワークを提案し、「全5次元での評価合格なしにメンタルヘルスAIシステムを展開すべきでない」と強く主張している。汎用的な安全訓練と医療特化の安全要件が相容れない可能性を示した重要な研究として注目される。

ポイント

  • メンタルヘルス支援として展開されたLLM 4種を、250の持続的エクスポージャー療法シナリオと146の認知再構成(CBT)演習で評価
  • 表面的な対応は良好だが、最重症シナリオでは治療適切性スコアが0.22〜0.33まで低下
  • RLHF安全性調整が治療メカニズムを体系的に阻害する問題パターンを複数発見
  • プロトコル忠実性、幻覚リスク、行動一貫性、危機安全性、人口統計的堅牢性の5軸評価フレームワークを提案
  • メンタルヘルスAIシステムは「全5次元での評価合格なしに展開すべきでない」と主張

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。