トピック / 学術論文 | レポート・コラム

2026.04.27 US

論文「BenchGuard: Who Guards the Benchmarks?」 — LLM ベンチマーク自体を LLM で監査するフレームワークを提案

Xinming Tu 氏らが 2026 年 4 月 27 日に arXiv へ投稿。エージェント評価の「失敗」が実はベンチマーク欠陥に起因する事例を指摘し、LLM をベンチマーク監査役として用いる BenchGuard を提案。BIxBench 専門家評価との一致率 83.3% を実現。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.26 GLOBAL

論文「ragR: Retrieval-Augmented Generation and RAG Assessment in R」 — R 環境向け RAG 構築・評価統合パッケージを公開

Muhammad Aimal Rehman 氏らが 2026 年 4 月 26 日に arXiv へ投稿。文書取得・埋め込み・ベクトル保存・グラウンディング生成・RAGAS 風評価まで R 環境内で一貫して扱える ragR パッケージを発表し、Python の RAGAS 依存を解消。

#論文 #arXiv #RAG label+2

campaignトピック article ニュース

2026.04.25 US

論文「AI Safety Training Can be Clinically Harmful」 — メンタルヘルス治療文脈で RLHF 安全訓練が治療を阻害する可能性を指摘

Suhas BN 氏らが 2026 年 4 月 25 日に arXiv へ投稿。RLHF による安全訓練がメンタルヘルス治療文脈で治療メカニズムを阻害する体系的問題を特定。最高重症度シナリオで治療適切性スコアが 0.22〜0.33 に落ち込むと報告。

#論文 #arXiv #ヘルスケア label+2

campaignトピック article ニュース

2026.04.24 GLOBAL

論文「Vision-Language-Action in Robotics: A Survey」 — VLA モデル進展のボトルネックはデータインフラと指摘

Ziyao Wang 氏ら 10 名が 2026 年 4 月 24 日に arXiv へ投稿したサーベイ論文。Vision-Language-Action (VLA) モデルの進展における主要ボトルネックは「データインフラ（データセット・ベンチマーク・データエンジン）」であると指摘し、現状のリソースを構造化して整理。

#論文 #arXiv #サーベイ論文 label+2

campaignトピック article ニュース

2026.04.24 US

論文「Thinking Without Words」 — 抽象トークンによる潜在 CoT で推論トークンを最大 11.6 倍削減

Keshav Ramji 氏らが 2026 年 4 月 24 日に arXiv へ投稿。自然言語の長い chain-of-thought の代わりに予約語彙の短い抽象トークン列で推論する Abstract Chain-of-Thought (ACoT) を提案し、推論トークンを最大 11.6 倍削減しつつ性能を維持。

#LLM（大規模言語モデル） #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.23 GLOBAL

論文「You Don't Need Public Tests to Generate Correct Code」 — 公開テストなしでコード生成を自己検証する DryRUN フレームワーク

Kaushitha Silva 氏らが 2026 年 4 月 23 日に arXiv へ投稿。LLM 自身が入力を構築し実行フローをシミュレートして自己訂正する DryRUN フレームワークを提案。LiveCodeBench v6 で公開テストなしでも CodeSIM と同等性能を実現したと報告。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.22 GLOBAL

論文「Omission Constraints Decay While Commission Constraints Persist」 — 長文文脈で禁止型制約のみ会話とともに崩壊

Yeran Gamage 氏が 2026 年 4 月 22 日に arXiv へ投稿。LLM エージェントの行動制約には非対称性があり、禁止型制約は会話 5 ターン目の遵守率 73% から 16 ターン目に 33% まで低下する一方、要件型制約は 100% で維持されると報告。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.21 GLOBAL

論文「Reasoning Structure Matters for Safety Alignment」 — 推論構造を改変する AltTrain で 1K 例 SFT のみで安全性向上

Yeonjun In 氏らが 2026 年 4 月 21 日に arXiv へ投稿。大規模推論モデルの安全性リスクは「推論構造そのもの」に起因すると主張し、わずか 1K 例の教師付きファインチューニングで安全性配置を達成する AltTrain を提案。

#LLM（大規模言語モデル） #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.21 EU

論文「Do Agents Dream of Root Shells?」 — CTF 課題で LLM エージェントの部分達成を評価する DeepRed ベンチマーク

Ali Al-Kaswan 氏らが 2026 年 4 月 21 日に arXiv へ投稿。仮想化ネットワーク上の現実的 Capture-The-Flag 課題で LLM エージェントを評価する DeepRed ベンチマークを提案。最高性能モデルでもチェックポイント完了率は平均 35% に留まると報告。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.18 GLOBAL

論文「False Security Confidence in Benign LLM Code Generation」 — 機能正解だが脆弱なコード出力の頻度を測る FSC 概念を提案

Xiaolei Ren 氏が 2026 年 4 月 18 日に arXiv へ投稿（4 月 21 日改訂）。攻撃なしの通常生成タスクで「機能正解だが脆弱なコード」が現れる頻度を測定する False Security Confidence (FSC) 概念を提案。3 エコシステム視点で測定境界を整理。

#論文 #arXiv #AI安全性 label+2

campaignトピック article ニュース

2026.04.17 US

論文「LLM Reasoning Is Latent, Not the Chain of Thought」 — LLM 推論は潜在状態軌跡として研究すべきと提言

Wenshuo Wang 氏が 2026 年 4 月 17 日に arXiv へ投稿した位置論文。LLM の推論を「表面的 chain-of-thought (CoT) の忠実性」ではなく「潜在状態軌跡の形成」として研究すべきと主張し、3 仮説を比較検討した上で潜在状態仮説を支持する証拠を整理。

#LLM（大規模言語モデル） #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.11 CN

論文「Credit-Budgeted ICPC-Style Coding」 — エージェントが「決定ごとに支払う」予算経済型 USACOArena を提案

Lingfeng Zhou 氏らが 2026 年 4 月 11 日に arXiv へ投稿。生成トークン・ローカルテスト・経過時間が固定予算から差引される USACOArena を発表。最先端エージェント群でも精度とコストの最適バランスを取れず、経路依存的・発散的挙動を示すと報告。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.11 GLOBAL

論文「Applying an Agentic Coding Tool for Improving Published Algorithm Implementations」 — Claude Code で 11 実験すべて改善を達成

Worasait Suwannik 氏が 2026 年 4 月 11 日に arXiv へ投稿。公開アルゴリズム実装を 2 段階で改善するパイプラインを提案。Claude Code が再現と改善を担当し、11 実験すべてで改善を達成（各 1 営業日以内）。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.08 GLOBAL

論文「The AI Skills Shift」 — LLM時代における職務スキルの陳腐化・新興・移行経路を分析

Rudra Jadhav 氏らが 2026 年 4 月 8 日に arXiv へ投稿した論文。756 職業・17,998 タスクを対象に LLM の職務影響を測定する Skill Automation Feasibility Index (SAFI) を提案し、AI 相互作用の 78.7% が「自動化ではなく拡張」であると報告。

#LLM（大規模言語モデル） #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.06 US

論文「Compiled AI」 — LLM 呼び出しを排除しトークン 57 倍削減を実現する決定論的コード生成基盤

XY.AI Labs / スタンフォード（Stanford） / Cornell / Brigham and Women's Hospital 共同のチームが 2026 年 4 月 6 日に arXiv へ投稿。LLM がコンパイル段階で実行可能コードを生成し、その後のワークフローはモデル呼び出しなしに決定的に実行する Compiled AI を提案。

#AIエージェント #論文 #arXiv label+2

campaignトピック article ニュース

2026.04.02 US

論文「Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning」 — 等思考トークン予算下では単一エージェントが優位

Dat Tran 氏と Douwe Kiela 氏が 2026 年 4 月 2 日に arXiv へ投稿。マルチエージェント LLM システム（MAS）の優位性は計算量増加で説明できると主張し、同じ思考トークン予算下では単一エージェント（SAS）が同等以上の性能を示すことを 3 モデルで実証。

#AIエージェント #LLM（大規模言語モデル） #論文 label+2

レポート・コラム：トピック

論文「BenchGuard: Who Guards the Benchmarks?」 — LLM ベンチマーク自体を LLM で監査するフレームワークを提案

論文「ragR: Retrieval-Augmented Generation and RAG Assessment in R」 — R 環境向け RAG 構築・評価統合パッケージを公開

論文「AI Safety Training Can be Clinically Harmful」 — メンタルヘルス治療文脈で RLHF 安全訓練が治療を阻害する可能性を指摘

論文「Vision-Language-Action in Robotics: A Survey」 — VLA モデル進展のボトルネックはデータインフラと指摘

論文「Thinking Without Words」 — 抽象トークンによる潜在 CoT で推論トークンを最大 11.6 倍削減

論文「You Don't Need Public Tests to Generate Correct Code」 — 公開テストなしでコード生成を自己検証する DryRUN フレームワーク

論文「Omission Constraints Decay While Commission Constraints Persist」 — 長文文脈で禁止型制約のみ会話とともに崩壊

論文「Reasoning Structure Matters for Safety Alignment」 — 推論構造を改変する AltTrain で 1K 例 SFT のみで安全性向上

論文「Do Agents Dream of Root Shells?」 — CTF 課題で LLM エージェントの部分達成を評価する DeepRed ベンチマーク

論文「False Security Confidence in Benign LLM Code Generation」 — 機能正解だが脆弱なコード出力の頻度を測る FSC 概念を提案

論文「LLM Reasoning Is Latent, Not the Chain of Thought」 — LLM 推論は潜在状態軌跡として研究すべきと提言

論文「Credit-Budgeted ICPC-Style Coding」 — エージェントが「決定ごとに支払う」予算経済型 USACOArena を提案

論文「Applying an Agentic Coding Tool for Improving Published Algorithm Implementations」 — Claude Code で 11 実験すべて改善を達成

論文「The AI Skills Shift」 — LLM時代における職務スキルの陳腐化・新興・移行経路を分析

論文「Compiled AI」 — LLM 呼び出しを排除しトークン 57 倍削減を実現する決定論的コード生成基盤

論文「Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning」 — 等思考トークン予算下では単一エージェントが優位

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査