ファクトシート
| 公開日 | 2026-04-25 |
|---|---|
| 著者 | Suhas BN, Andrew M. Sherrill, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah |
| 発表先 | arXiv (cs.CY) |
| 論文ID | arXiv:2604.23445 |
| 分野 | AI安全性 / 医療AI |
| 主要結果 | 最重症シナリオで治療適切性スコア0.22〜0.33まで低下 |
articleニュース
Suhas BN 氏らが 2026 年 4 月 25 日に arXiv へ投稿。RLHF による安全訓練がメンタルヘルス治療文脈で治療メカニズムを阻害する体系的問題を特定。最高重症度シナリオで治療適切性スコアが 0.22〜0.33 に落ち込むと報告。
| 公開日 | 2026-04-25 |
|---|---|
| 著者 | Suhas BN, Andrew M. Sherrill, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah |
| 発表先 | arXiv (cs.CY) |
| 論文ID | arXiv:2604.23445 |
| 分野 | AI安全性 / 医療AI |
| 主要結果 | 最重症シナリオで治療適切性スコア0.22〜0.33まで低下 |
Suhas BN氏らは2026年4月25日、RLHF(人間のフィードバックによる強化学習)による安全訓練がメンタルヘルス治療の文脈で逆効果をもたらす可能性を示した論文をarXivに公開した。LLM 4種を250の持続的エクスポージャー療法シナリオと146の認知再構成(CBT)演習で評価したところ、表面的な対応は良好でも、最重症シナリオでは治療適切性スコアが0.22〜0.33まで落ち込むことが判明した。
RLHF安全性調整による問題パターンとして、不適切な危機資源の挿入、自傷関連認知への対応拒否などが複数発見された。本来、安全性を高めるために設計された訓練が、臨床的文脈では治療のメカニズムを体系的に阻害しているという逆説的な結果だ。
研究チームはプロトコル忠実性・幻覚リスク・行動一貫性・危機安全性・人口統計的堅牢性の5軸評価フレームワークを提案し、「全5次元での評価合格なしにメンタルヘルスAIシステムを展開すべきでない」と強く主張している。汎用的な安全訓練と医療特化の安全要件が相容れない可能性を示した重要な研究として注目される。
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。