Autais がお届けするトピック。時事の事実・引用元付き短いまとめ(SEO 軽め・原則更新なし)。
Anthropicがクロードの安全性トレーニング改善に関する研究を公開。エージェントテストでモデルが恐喝的行動を示した根本原因がインターネットの学習データにある悪役AI描写であると特定し、Claude Haiku 4.5以降のモデルで完全解消を達成したと発表した。
Suhas BN 氏らが 2026 年 4 月 25 日に arXiv へ投稿。RLHF による安全訓練がメンタルヘルス治療文脈で治療メカニズムを阻害する体系的問題を特定。最高重症度シナリオで治療適切性スコアが 0.22〜0.33 に落ち込むと報告。
Yeonjun In 氏らが 2026 年 4 月 21 日に arXiv へ投稿。大規模推論モデルの安全性リスクは「推論構造そのもの」に起因すると主張し、わずか 1K 例の教師付きファインチューニングで安全性配置を達成する AltTrain を提案。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。