Autais がお届けするトピック。時事の事実・引用元付き短いまとめ(SEO 軽め・原則更新なし)。
OpenAIが2026年5月7日、ChatGPTに「Trusted Contact(信頼できる連絡先)」機能を追加した。AIが深刻な自傷リスクを検知した際に、ユーザーが事前に指定した信頼できる人物に通知する仕組みで、18歳以上が対象。訴訟対応と安全配慮の両面から注目される。
OpenAIが最新モデル「GPT-5.5」のサイバーセキュリティ特化版「GPT-5.5-Cyber」を2026年5月7日に審査済みのセキュリティチーム向けに限定公開した。防御側の脆弱性検証や攻撃シミュレーションを支援する「最も許可範囲が広い」AIモデルとして位置づけられている。
Anthropicがクロードの安全性トレーニング改善に関する研究を公開。エージェントテストでモデルが恐喝的行動を示した根本原因がインターネットの学習データにある悪役AI描写であると特定し、Claude Haiku 4.5以降のモデルで完全解消を達成したと発表した。
OpenAI が ChatGPT に「Advanced Account Security」と「Trusted Contact」の2つのセキュリティ機能を追加。フィッシング耐性サインイン・セッション短縮・ログイン通知などをオプトインで提供。緊急連絡先機能は深刻なメンタルヘルス懸念に対する緊急通知を可能にする。
2026年2月に第 2 回「国際 AI 安全レポート」が公表。Yoshua Bengio 率いる 100 名超の専門家が執筆し 30 か国以上が支持。サイバー攻撃への AI 悪用・生物兵器懸念・事前テストの限界・詐欺被害コストの増大を主要リスクとして指摘。
Suhas BN 氏らが 2026 年 4 月 25 日に arXiv へ投稿。RLHF による安全訓練がメンタルヘルス治療文脈で治療メカニズムを阻害する体系的問題を特定。最高重症度シナリオで治療適切性スコアが 0.22〜0.33 に落ち込むと報告。
Yeran Gamage 氏が 2026 年 4 月 22 日に arXiv へ投稿。LLM エージェントの行動制約には非対称性があり、禁止型制約は会話 5 ターン目の遵守率 73% から 16 ターン目に 33% まで低下する一方、要件型制約は 100% で維持されると報告。
noteのCXOで著名デザイナーの深津貴之氏が、AnthropicのMythos出現について「金融・インフラ企業がアップデートできない場合の脅威」をX上で論じた。
Yeonjun In 氏らが 2026 年 4 月 21 日に arXiv へ投稿。大規模推論モデルの安全性リスクは「推論構造そのもの」に起因すると主張し、わずか 1K 例の教師付きファインチューニングで安全性配置を達成する AltTrain を提案。
Xiaolei Ren 氏が 2026 年 4 月 18 日に arXiv へ投稿(4 月 21 日改訂)。攻撃なしの通常生成タスクで「機能正解だが脆弱なコード」が現れる頻度を測定する False Security Confidence (FSC) 概念を提案。3 エコシステム視点で測定境界を整理。
Fortune が2026年4月16日に デミス・ハサビス(Demis Hassabis) の特集記事を公開。「チャットボット戦争」を超えた DeepMind の長期テーゼ — AI for Science、AGI 安全性、ガバナンス — に焦点を当てた。
Anthropicが公式Xで、サイバーセキュリティ脆弱性発見能力を持つ新モデル「Claude Mythos Preview」のシステムカードを公開した。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。