ファクトシート
| 公開日 | 2026-04-21 |
|---|---|
| 著者 | Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek, Roland Vízner, Arie van Deursen, Maliheh Izadi |
| 発表先 | arXiv (cs.CR) |
| 論文ID | arXiv:2604.19354 |
| 分野 | AIエージェント / サイバーセキュリティ |
| 主要結果 | 最高性能でも CTF チェックポイント完了率は平均35% |
articleニュース
Ali Al-Kaswan 氏らが 2026 年 4 月 21 日に arXiv へ投稿。仮想化ネットワーク上の現実的 Capture-The-Flag 課題で LLM エージェントを評価する DeepRed ベンチマークを提案。最高性能モデルでもチェックポイント完了率は平均 35% に留まると報告。
| 公開日 | 2026-04-21 |
|---|---|
| 著者 | Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek, Roland Vízner, Arie van Deursen, Maliheh Izadi |
| 発表先 | arXiv (cs.CR) |
| 論文ID | arXiv:2604.19354 |
| 分野 | AIエージェント / サイバーセキュリティ |
| 主要結果 | 最高性能でも CTF チェックポイント完了率は平均35% |
Ali Al-Kaswan 氏らが 2026 年 4 月 21 日に arXiv(cs.CR)へ投稿した本論文は、LLM エージェントのサイバーセキュリティ能力を現実的な環境で評価するための「DeepRed」ベンチマークを提案する。既存のベンチマークが単純な CTF 問題や「全か無か」の正解/不正解評価に偏っていたのに対し、DeepRed は仮想化された分離ネットワーク上の現実的なマシンを使い、部分的な達成度をチェックポイント単位で測定する設計になっている。
評価対象は 10 個の VM ベース CTF 課題で、10 種類の商用 LLM を横断的にベンチマークした。最も性能が高いモデルでも、チェックポイントの完了率は平均約 35% にとどまることが判明した。非定型的な発見や長期にわたる適応的な攻撃手順が必要な課題では特に弱点が目立ち、現時点でのモデルの限界を明確にしている。
1 セットのベンチマーク実行コストが約 70 ドル(2026 年 4 月時点)と低く、研究機関や組織が容易に再現・拡張できる点もこのベンチマークの価値の一つだ。AI のサイバーセキュリティへの応用が広がるなか、能力の正確な測定と限界の把握が不可欠であることをあらためて示す研究として注目される。
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。