articleニュース

論文「Omission Constraints Decay While Commission Constraints Persist」 — 長文文脈で禁止型制約のみ会話とともに崩壊

Yeran Gamage 氏が 2026 年 4 月 22 日に へ投稿。 の行動制約には非対称性があり、禁止型制約は会話 5 ターン目の遵守率 73% から 16 ターン目に 33% まで低下する一方、要件型制約は 100% で維持されると報告。

format_list_bulleted発表内容

  • に設定する制約には「禁止型(commission の禁止)」と「要件型(omission の禁止=指定動作の実行)」の非対称性があると主張
  • 認証情報開示や不正出力の禁止のような禁止型制約は、会話が長くなると効力が低下
  • 4,416 試行の因果研究で、禁止型遵守率は 5 ターン目 73% → 16 ターン目 33% に低下
  • 対照的に、要件型制約の遵守率は 100% で維持される
  • 「Security-Recall Divergence」と命名し、スキーマ意味内容が希釈効果の 62〜100% を占めると分析。再挿入で再訓練なしに遵守を回復可能

ファクトシート

公開日 2026-04-22
著者 Yeran Gamage
発表先 (cs.AI)
論文ID :2604.20911
分野 / 長文文脈の安全性
主要結果 5ターン目73%→16ターン目33%まで禁止型制約遵守率が低下

概要

Yeran Gamage氏は2026年4月22日、の行動制約における非対称性を分析した論文「Omission Constraints Decay While Commission Constraints Persist」をに投稿した。エージェントに課す制約には「禁止型(commission constraints)」と「要件型(omission constraints)」の2種類があり、長い会話を経るうちに両者の遵守率が大きく乖離することが実証的に示された。

4,416試行の因果研究によれば、認証情報の開示禁止や不正出力の禁止など、「〜をするな」という禁止型制約は、会話の5ターン目には遵守率が73%あったものが、16ターン目には33%まで低下する。一方で「〜をしなければならない」という要件型制約は100%の遵守率を維持し続ける。

この現象は「Security-Recall Divergence」と命名された。スキーマの意味内容の希釈が主因と分析されており、制約を会話中に再挿入することで再訓練なしに遵守率を回復できることも示されている。エージェントをセキュアに運用するための実装上の重要知見だ。

ポイント

  • 禁止型制約(commission constraints)は会話が長くなるにつれて効力が低下し、5ターン目73%から16ターン目33%へ遵守率が下がる
  • 要件型制約(omission constraints)の遵守率は100%で維持されるという非対称性が実証された
  • 「Security-Recall Divergence」と命名し、制約の再挿入で再訓練なしに遵守を回復可能と報告

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。