レポート・コラム：トピック

Autais がお届けするトピック。時事の事実・引用元付き短いまとめ（SEO 軽め・原則更新なし）。

6 件中 1〜6 件目を表示

campaignトピック article ニュース

2026.04.27 US

論文「BenchGuard: Who Guards the Benchmarks?」 — LLM ベンチマーク自体を LLM で監査するフレームワークを提案

Xinming Tu 氏らが 2026 年 4 月 27 日に arXiv へ投稿。エージェント評価の「失敗」が実はベンチマーク欠陥に起因する事例を指摘し、LLM をベンチマーク監査役として用いる BenchGuard を提案。BIxBench 専門家評価との一致率 83.3% を実現。

#AIエージェント #論文 #arXiv label+2
campaignトピック article ニュース

2026.04.25 US

論文「AI Safety Training Can be Clinically Harmful」 — メンタルヘルス治療文脈で RLHF 安全訓練が治療を阻害する可能性を指摘

Suhas BN 氏らが 2026 年 4 月 25 日に arXiv へ投稿。RLHF による安全訓練がメンタルヘルス治療文脈で治療メカニズムを阻害する体系的問題を特定。最高重症度シナリオで治療適切性スコアが 0.22〜0.33 に落ち込むと報告。

#論文 #arXiv #ヘルスケア label+2
campaignトピック article ニュース

2026.04.24 US

論文「Thinking Without Words」 — 抽象トークンによる潜在 CoT で推論トークンを最大 11.6 倍削減

Keshav Ramji 氏らが 2026 年 4 月 24 日に arXiv へ投稿。自然言語の長い chain-of-thought の代わりに予約語彙の短い抽象トークン列で推論する Abstract Chain-of-Thought (ACoT) を提案し、推論トークンを最大 11.6 倍削減しつつ性能を維持。

#LLM（大規模言語モデル） #論文 #arXiv label+2
campaignトピック article ニュース

2026.04.17 US

論文「LLM Reasoning Is Latent, Not the Chain of Thought」 — LLM 推論は潜在状態軌跡として研究すべきと提言

Wenshuo Wang 氏が 2026 年 4 月 17 日に arXiv へ投稿した位置論文。LLM の推論を「表面的 chain-of-thought (CoT) の忠実性」ではなく「潜在状態軌跡の形成」として研究すべきと主張し、3 仮説を比較検討した上で潜在状態仮説を支持する証拠を整理。

#LLM（大規模言語モデル） #論文 #arXiv label+2
campaignトピック article ニュース

2026.04.06 US

論文「Compiled AI」 — LLM 呼び出しを排除しトークン 57 倍削減を実現する決定論的コード生成基盤

XY.AI Labs / スタンフォード（Stanford） / Cornell / Brigham and Women's Hospital 共同のチームが 2026 年 4 月 6 日に arXiv へ投稿。LLM がコンパイル段階で実行可能コードを生成し、その後のワークフローはモデル呼び出しなしに決定的に実行する Compiled AI を提案。

#AIエージェント #論文 #arXiv label+2
campaignトピック article ニュース

2026.04.02 US

論文「Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning」 — 等思考トークン予算下では単一エージェントが優位

Dat Tran 氏と Douwe Kiela 氏が 2026 年 4 月 2 日に arXiv へ投稿。マルチエージェント LLM システム（MAS）の優位性は計算量増加で説明できると主張し、同じ思考トークン予算下では単一エージェント（SAS）が同等以上の性能を示すことを 3 モデルで実証。

#AIエージェント #LLM（大規模言語モデル） #論文 label+2

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。

無料オンライン相談

30分で課題を整理。提案を聞くだけでもOK。

予約する arrow_forward support_agent

コンサルティング

業務棚卸しから運用定着まで伴走。

問合せ arrow_forward groups

セミナー

社内研修・ワークショップを開催。

依頼する arrow_forward campaign

講演

イベント・カンファレンスでの登壇。

依頼する arrow_forward analytics

調査

業界・競合・AI活用の市場調査。

依頼する arrow_forward