論文「Do Agents Dream of Root Shells?」 — CTF 課題で LLM エージェントの部分達成を評価する DeepRed ベンチマーク

Ali Al-Kaswan 氏らが 2026 年 4 月 21 日に arXiv へ投稿。仮想化ネットワーク上の現実的 Capture-The-Flag 課題で LLM エージェントを評価する DeepRed ベンチマークを提案。最高性能モデルでもチェックポイント完了率は平均 35% に留まると報告。

format_list_bulleted発表内容

オープンソースの DeepRed ベンチマークを提案：仮想化された分離ネットワーク上の現実的 Capture-The-Flag (CTF) 課題で LLM エージェントを評価
10 個の VM ベース CTF 課題に対して 10 種類の商用 LLM をベンチマーク（カテゴリーは多岐にわたる）
新しい部分達成スコアリング手法を導入：チェックポイント完了度に基づく評価で「全か無か」評価の限界を補う
最高性能モデルでもチェックポイント完了率は平均約 35% に留まり、非定型的な発見や長期適応が必要な課題で弱点を示す
ベンチマークスイープのコストは「1 セットあたり約 70 ドル（2026 年 4 月時点）」と低コストでの再現性を確保

ファクトシート

公開日	2026-04-21
著者	Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek, Roland Vízner, Arie van Deursen, Maliheh Izadi
発表先	arXiv (cs.CR)
論文ID	arXiv:2604.19354
分野	AIエージェント / サイバーセキュリティ
主要結果	最高性能でも CTF チェックポイント完了率は平均35%

概要

Ali Al-Kaswan 氏らが 2026 年 4 月 21 日に arXiv（cs.CR）へ投稿した本論文は、LLM エージェントのサイバーセキュリティ能力を現実的な環境で評価するための「DeepRed」ベンチマークを提案する。既存のベンチマークが単純な CTF 問題や「全か無か」の正解/不正解評価に偏っていたのに対し、DeepRed は仮想化された分離ネットワーク上の現実的なマシンを使い、部分的な達成度をチェックポイント単位で測定する設計になっている。

評価対象は 10 個の VM ベース CTF 課題で、10 種類の商用 LLM を横断的にベンチマークした。最も性能が高いモデルでも、チェックポイントの完了率は平均約 35% にとどまることが判明した。非定型的な発見や長期にわたる適応的な攻撃手順が必要な課題では特に弱点が目立ち、現時点でのモデルの限界を明確にしている。

1 セットのベンチマーク実行コストが約 70 ドル（2026 年 4 月時点）と低く、研究機関や組織が容易に再現・拡張できる点もこのベンチマークの価値の一つだ。AI のサイバーセキュリティへの応用が広がるなか、能力の正確な測定と限界の把握が不可欠であることをあらためて示す研究として注目される。

ポイント

オープンソースの DeepRed ベンチマークを提案。仮想化分離ネットワーク上の現実的 CTF 課題で LLM エージェントを評価
10 個の VM ベース CTF 課題に対して 10 種類の商用 LLM をベンチマーク
新しい部分達成スコアリング手法を導入。「全か無か」評価の限界を補う
最高性能モデルでもチェックポイント完了率は平均約 35% にとどまる
ベンチマーク実行コストは 1 セットあたり約 70 ドル（2026 年 4 月時点）

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

論文「Do Agents Dream of Root Shells?」 — CTF 課題で LLM エージェントの部分達成を評価する DeepRed ベンチマーク

format_list_bulleted発表内容

ファクトシート

概要

ポイント

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

論文「Do Agents Dream of Root Shells?」 — CTF 課題で LLM エージェントの部分達成を評価する DeepRed ベンチマーク

format_list_bulleted発表内容

ファクトシート

概要

ポイント

出典

Canopy、税理士事務所向け AI実行レイヤー「Canopy Coworker」を発表

Mistral AI、Medium 3.5 と Le Chat の Work Mode を発表

JPMorgan Chase CIO、AI戦略と198億ドル技術予算を公表

税理士事務所 AI 導入ロードマップ — 6 ヶ月で 5 業務を変える

弁護士事務所 AI 導入ロードマップ — リーガルテック × 中小事務所で守秘義務と両立する

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査