articleニュース

OpenAIとAnthropicが競合間初の合同AI安全性評価演習を実施——シャペロニング・自己保全・操作誘導の3軸でモデルをクロステスト

が競合関係にある両社として初めて合同の安全性評価演習を実施。先輩への依存(シャペロニング)・自己保全行動・ユーザー操作の3軸で互いのモデルを評価し、評価手法の共通基盤を構築した。

概要

は、競合他社間として初めてとなる合同評価演習(パイロット)を実施したと発表した。両社は互いのに対して共通の評価プロトコルを適用し、①先輩モデルへの過度な依存(シャペロニング)、②モデルの自己保全行動、③ユーザーへの操作的な誘導、の3軸を中心にクロスレッドチーミングを行った。

ポイント

  • 評価軸: シャペロニング(上位モデルへの盲目的追従)/自己保全(シャットダウン回避など)/操作的誘導(ユーザーへの心理的影響)の3軸
  • 相互評価: 両社のレッドチームが相手社のモデルを評価するクロス体制を採用
  • 目的: 各社の独自評価では見落としがちな系統的バイアスを特定し、評価手法自体の標準化・信頼性向上を図る
  • 成果: 評価プロトコルの一部を共通化する合意に至り、今後の協力枠組み設立を検討中
  • 背景: 前年2025年のレッドチーミングにおいて、双方が同種のリスクを独立して発見したことが共同演習の直接のきっかけ

解説

AI安全性評価はこれまで各社が独自に実施しており、評価基準の違いにより結果の比較が困難だった。今回の演習は、競合同士が共通のリスク軸を持ち、相互に評価し合う体制の有効性を実証した。特に自己保全行動は単一組織の評価では過小評価されやすく、外部視点からのテストが有効であることが示された。

業界全体としては、AIフロンティアラボが安全性評価において協調する動きはグローバルなの観点からも注目される。

注意点

  • 演習の詳細プロトコルや発見された具体的リスクは非公開部分が多い
  • 競合関係にある両社の協力には・競争法上の複雑な側面があり、継続的な協力の範囲は今後の交渉次第
  • 本演習はパイロット段階であり、評価プロトコルの完全標準化には至っていない

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。