論文「AI Safety Training Can be Clinically Harmful」 — メンタルヘルス治療文脈で RLHF 安全訓練が治療を阻害する可能性を指摘

Suhas BN 氏らが 2026 年 4 月 25 日に arXiv へ投稿。RLHF による安全訓練がメンタルヘルス治療文脈で治療メカニズムを阻害する体系的問題を特定。最高重症度シナリオで治療適切性スコアが 0.22〜0.33 に落ち込むと報告。

format_list_bulleted発表内容

メンタルヘルス支援エージェントとして展開された LLM 4 種を、250 の持続的エクスポージャー療法シナリオと 146 の認知再構成 (CBT) 演習で評価
表面的な対応は良好だが、最重症シナリオでは治療適切性スコアが 0.22〜0.33 まで低下
RLHF 安全性調整が治療メカニズムを体系的に阻害する問題パターンを複数発見（不適切な危機資源挿入・自傷関連認知への対応拒否など）
プロトコル忠実性、幻覚リスク、行動一貫性、危機安全性、人口統計的堅牢性の 5 軸評価フレームワークを提案
メンタルヘルス AI システムは「全 5 次元での評価合格なしに展開すべきでない」と主張

ファクトシート

公開日	2026-04-25
著者	Suhas BN, Andrew M. Sherrill, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah
発表先	arXiv (cs.CY)
論文ID	arXiv:2604.23445
分野	AI安全性 / 医療AI
主要結果	最重症シナリオで治療適切性スコア0.22〜0.33まで低下

概要

Suhas BN氏らは2026年4月25日、RLHF（人間のフィードバックによる強化学習）による安全訓練がメンタルヘルス治療の文脈で逆効果をもたらす可能性を示した論文をarXivに公開した。LLM 4種を250の持続的エクスポージャー療法シナリオと146の認知再構成（CBT）演習で評価したところ、表面的な対応は良好でも、最重症シナリオでは治療適切性スコアが0.22〜0.33まで落ち込むことが判明した。

RLHF安全性調整による問題パターンとして、不適切な危機資源の挿入、自傷関連認知への対応拒否などが複数発見された。本来、安全性を高めるために設計された訓練が、臨床的文脈では治療のメカニズムを体系的に阻害しているという逆説的な結果だ。

研究チームはプロトコル忠実性・幻覚リスク・行動一貫性・危機安全性・人口統計的堅牢性の5軸評価フレームワークを提案し、「全5次元での評価合格なしにメンタルヘルスAIシステムを展開すべきでない」と強く主張している。汎用的な安全訓練と医療特化の安全要件が相容れない可能性を示した重要な研究として注目される。

ポイント

メンタルヘルス支援エージェントとして展開されたLLM 4種を、250の持続的エクスポージャー療法シナリオと146の認知再構成（CBT）演習で評価
表面的な対応は良好だが、最重症シナリオでは治療適切性スコアが0.22〜0.33まで低下
RLHF安全性調整が治療メカニズムを体系的に阻害する問題パターンを複数発見
プロトコル忠実性、幻覚リスク、行動一貫性、危機安全性、人口統計的堅牢性の5軸評価フレームワークを提案
メンタルヘルスAIシステムは「全5次元での評価合格なしに展開すべきでない」と主張

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

論文「AI Safety Training Can be Clinically Harmful」 — メンタルヘルス治療文脈で RLHF 安全訓練が治療を阻害する可能性を指摘

format_list_bulleted発表内容

ファクトシート

概要

ポイント

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

論文「AI Safety Training Can be Clinically Harmful」 — メンタルヘルス治療文脈で RLHF 安全訓練が治療を阻害する可能性を指摘

format_list_bulleted発表内容

ファクトシート

概要

ポイント

出典

論文「BenchGuard: Who Guards the Benchmarks?」 — LLM ベンチマーク自体を LLM で監査するフレームワークを提案

論文「ragR: Retrieval-Augmented Generation and RAG Assessment in R」 — R 環境向け RAG 構築・評価統合パッケージを公開

論文「Vision-Language-Action in Robotics: A Survey」 — VLA モデル進展のボトルネックはデータインフラと指摘

税理士事務所 AI 導入ロードマップ — 6 ヶ月で 5 業務を変える

弁護士事務所 AI 導入ロードマップ — リーガルテック × 中小事務所で守秘義務と両立する

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査