OpenAIとAnthropicが競合間初の合同AI安全性評価演習を実施——シャペロニング・自己保全・操作誘導の3軸でモデルをクロステスト

OpenAIとAnthropicが競合関係にある両社として初めて合同の安全性評価演習を実施。先輩モデルへの依存（シャペロニング）・自己保全行動・ユーザー操作の3軸で互いのモデルを評価し、評価手法の共通基盤を構築した。

概要

OpenAIとAnthropicは、競合他社間として初めてとなる合同AI安全性評価演習（パイロット）を実施したと発表した。両社は互いのAIモデルに対して共通の評価プロトコルを適用し、①先輩モデルへの過度な依存（シャペロニング）、②モデルの自己保全行動、③ユーザーへの操作的な誘導、の3軸を中心にクロスレッドチーミングを行った。

ポイント

評価軸: シャペロニング（上位モデルへの盲目的追従）／自己保全（シャットダウン回避など）／操作的誘導（ユーザーへの心理的影響）の3軸
相互評価: 両社のレッドチームが相手社のモデルを評価するクロス体制を採用
目的: 各社の独自評価では見落としがちな系統的バイアスを特定し、評価手法自体の標準化・信頼性向上を図る
成果: 評価プロトコルの一部を共通化する合意に至り、今後の協力枠組み設立を検討中
背景: 前年2025年のレッドチーミングにおいて、双方が同種のリスクを独立して発見したことが共同演習の直接のきっかけ

解説

AI安全性評価はこれまで各社が独自に実施しており、評価基準の違いにより結果の比較が困難だった。今回の演習は、競合同士が共通のリスク軸を持ち、相互に評価し合う体制の有効性を実証した。特に自己保全行動は単一組織の評価では過小評価されやすく、外部視点からのテストが有効であることが示された。

業界全体としては、AIフロンティアラボが安全性評価において協調する動きはグローバルなAIガバナンスの観点からも注目される。

注意点

演習の詳細プロトコルや発見された具体的リスクは非公開部分が多い
競合関係にある両社の協力には知的財産・競争法上の複雑な側面があり、継続的な協力の範囲は今後の交渉次第
本演習はパイロット段階であり、評価プロトコルの完全標準化には至っていない

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

OpenAIとAnthropicが競合間初の合同AI安全性評価演習を実施——シャペロニング・自己保全・操作誘導の3軸でモデルをクロステスト

概要

ポイント

解説

注意点

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

OpenAIとAnthropicが競合間初の合同AI安全性評価演習を実施——シャペロニング・自己保全・操作誘導の3軸でモデルをクロステスト

概要

ポイント

解説

注意点

出典

OpenAI、ChatGPT から「o3」モデルを 8 月 26 日に廃止へ――GPT-5.5・o3-pro への移行を促進

OpenAI が「Codex for Legal」を計画――Anthropic・Microsoft と並ぶリーガル AI 本格導入競争が激化

OpenAI、GPT-4.5 を6月27日に API 廃止へ―新モデル移行を開発者に促す

OpenAI Codex「PC 並行操作」を所内パイロット運用に乗せる手順

ChatGPT Projects とカスタム指示の使い分け

「7 週間で次のフロンティアモデル」時代の所内 AI 運用ルール設計

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査