articleニュース

論文「Do Agents Dream of Root Shells?」 — CTF 課題で LLM エージェントの部分達成を評価する DeepRed ベンチマーク

Ali Al-Kaswan 氏らが 2026 年 4 月 21 日に へ投稿。仮想化ネットワーク上の現実的 Capture-The-Flag 課題で を評価する DeepRed を提案。最高性能でもチェックポイント完了率は平均 35% に留まると報告。

format_list_bulleted発表内容

  • オープンソースの DeepRed を提案:仮想化された分離ネットワーク上の現実的 Capture-The-Flag (CTF) 課題で を評価
  • 10 個の VM ベース CTF 課題に対して 10 種類の商用 (カテゴリーは多岐にわたる)
  • 新しい部分達成スコアリング手法を導入:チェックポイント完了度に基づく評価で「全か無か」評価の限界を補う
  • 最高性能でもチェックポイント完了率は平均約 35% に留まり、非定型的な発見や長期適応が必要な課題で弱点を示す
  • スイープのコストは「1 セットあたり約 70 ドル(2026 年 4 月時点)」と低コストでの再現性を確保

ファクトシート

公開日 2026-04-21
著者 Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek, Roland Vízner, Arie van Deursen, Maliheh Izadi
発表先 (cs.CR)
論文ID :2604.19354
分野 /
主要結果 最高性能でも CTF チェックポイント完了率は平均35%

概要

Ali Al-Kaswan 氏らが 2026 年 4 月 21 日に (cs.CR)へ投稿した本論文は、 能力を現実的な環境で評価するための「DeepRed」を提案する。既存のベンチマークが単純な CTF 問題や「全か無か」の正解/不正解評価に偏っていたのに対し、DeepRed は仮想化された分離ネットワーク上の現実的なマシンを使い、部分的な達成度をチェックポイント単位で測定する設計になっている。

評価対象は 10 個の VM ベース CTF 課題で、10 種類の商用 LLM を横断的にベンチマークした。最も性能が高いでも、チェックポイントの完了率は平均約 35% にとどまることが判明した。非定型的な発見や長期にわたる適応的な攻撃手順が必要な課題では特に弱点が目立ち、現時点でのモデルの限界を明確にしている。

1 セットのベンチマーク実行コストが約 70 ドル(2026 年 4 月時点)と低く、研究機関や組織が容易に再現・拡張できる点もこのベンチマークの価値の一つだ。AI のサイバーセキュリティへの応用が広がるなか、能力の正確な測定と限界の把握が不可欠であることをあらためて示す研究として注目される。

ポイント

  • オープンソースの DeepRed ベンチマークを提案。仮想化分離ネットワーク上の現実的 CTF 課題で LLM エージェントを評価
  • 10 個の VM ベース CTF 課題に対して 10 種類の商用 LLM をベンチマーク
  • 新しい部分達成スコアリング手法を導入。「全か無か」評価の限界を補う
  • 最高性能モデルでもチェックポイント完了率は平均約 35% にとどまる
  • ベンチマーク実行コストは 1 セットあたり約 70 ドル(2026 年 4 月時点)

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。