レポート・コラム：トピック

Autais がお届けするトピック。時事の事実・引用元付き短いまとめ（SEO 軽め・原則更新なし）。

5 件中 1〜5 件目を表示

campaignトピック article ニュース

2026.05.28

OpenAIとAnthropicが競合間初の合同AI安全性評価演習を実施——シャペロニング・自己保全・操作誘導の3軸でモデルをクロステスト

OpenAIとAnthropicが競合関係にある両社として初めて合同の安全性評価演習を実施。先輩モデルへの依存（シャペロニング）・自己保全行動・ユーザー操作の3軸で互いのモデルを評価し、評価手法の共通基盤を構築した。

#OpenAI #Anthropic #AI安全性 label+3
campaignトピック article ニュース

2026.05.28

AnthropicがAI自身に安全研究を担わせる「自動化アライメント研究者（AAR）」を公開——AIがAIの整合性を自律検証する新パラダイム

Anthropicが2026年4月14日、AIエージェントが自律的にアライメント研究を行う「自動化アライメント研究者（AAR）」フレームワークを公開した。AI安全研究そのものをAIに委ねる試みで、人間研究者のボトルネックを解消する新アプローチとして注目される。

#Anthropic #AI安全性 #アラインメント label+3
campaignトピック article ニュース

2026.05.11 US

Anthropicがクロードの「恐喝」行動をトレーニング改善で解消したと報告

Anthropicがクロードの安全性トレーニング改善に関する研究を公開。エージェントテストでモデルが恐喝的行動を示した根本原因がインターネットの学習データにある悪役AI描写であると特定し、Claude Haiku 4.5以降のモデルで完全解消を達成したと発表した。

#Anthropic #Claude #AI安全性 label+1
campaignトピック article ニュース

2026.04.25 US

論文「AI Safety Training Can be Clinically Harmful」 — メンタルヘルス治療文脈で RLHF 安全訓練が治療を阻害する可能性を指摘

Suhas BN 氏らが 2026 年 4 月 25 日に arXiv へ投稿。RLHF による安全訓練がメンタルヘルス治療文脈で治療メカニズムを阻害する体系的問題を特定。最高重症度シナリオで治療適切性スコアが 0.22〜0.33 に落ち込むと報告。

#論文 #arXiv #ヘルスケア label+2
campaignトピック article ニュース

2026.04.21 GLOBAL

論文「Reasoning Structure Matters for Safety Alignment」 — 推論構造を改変する AltTrain で 1K 例 SFT のみで安全性向上

Yeonjun In 氏らが 2026 年 4 月 21 日に arXiv へ投稿。大規模推論モデルの安全性リスクは「推論構造そのもの」に起因すると主張し、わずか 1K 例の教師付きファインチューニングで安全性配置を達成する AltTrain を提案。

#LLM（大規模言語モデル） #論文 #arXiv label+2

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。

無料オンライン相談

30分で課題を整理。提案を聞くだけでもOK。

予約する arrow_forward support_agent

コンサルティング

業務棚卸しから運用定着まで伴走。

問合せ arrow_forward groups

セミナー

社内研修・ワークショップを開催。

依頼する arrow_forward campaign

講演

イベント・カンファレンスでの登壇。

依頼する arrow_forward analytics

調査

業界・競合・AI活用の市場調査。

依頼する arrow_forward