Cloudflare、独自開発の LLM 推論エンジン「Infire」を公開——グローバルネットワーク上でのAI実行を効率化

Cloudflare がグローバルネットワーク上で LLM を効率的に実行するための独自推論エンジン「Infire」を公開。複数 GPU をまたいだ高速推論・メモリ使用量の最適化・起動時間の短縮を実現するとしている。

format_list_bulleted発表内容

Cloudflare が独自開発の LLM 推論エンジン「Infire」を公開（2026年5月）
複数 GPU をまたいで LLM を実行でき、メモリ使用量の削減・モデル起動時間の短縮を実現
Cloudflare Birthday Week 2025 に発表されたエンジンを実用化したもの
Cloudflare のグローバル分散ネットワーク（200以上の都市）上で LLM を実行可能にすることを目指す

概要

Cloudflare は2026年5月、複数 GPU をまたいで大規模言語モデル（LLM）を効率的に実行する独自の AI 推論エンジン「Infire」を公開した。メモリ効率の改善とモデル起動時間の短縮により、グローバルなエッジネットワーク上での LLM 実行を実現しようとする取り組みである。

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

事実のポイント

Infire の特徴: 複数 GPU にまたがって LLM を実行できる推論エンジン。単一 GPU のメモリ制限を超えた大型モデルの実行が可能
最適化内容: 従来比でメモリ使用量の削減・モデル起動時間の短縮を達成
起源: 2025年の Cloudflare Birthday Week で発表されたエンジンを実用化
目的: Cloudflare の世界200都市以上の分散エッジネットワーク上で LLM を実行可能にし、低遅延の AI 推論サービスを提供する

用語・背景の補足

「AI 推論（inference）」とは、学習済みのモデルを実際に入力データに対して適用し、出力を生成するプロセス。AI の「学習」フェーズと対比される「使う」フェーズにあたる。エンタープライズにおいてコスト・遅延・スループットを左右する重要な工程である。

「エッジネットワーク」とは、データセンターから離れた地理的に分散した拠点でのコンピューティング。ユーザーの近くで処理を行うことで通信遅延を短縮できる。

注意点

Infire の詳細な技術仕様・対応モデル一覧は InfoQ および Cloudflare 公式を参照
2025年 Birthday Week 発表との差分は公式ドキュメントで確認を推奨

編集部見解

（追記予定）

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

Cloudflare、独自開発の LLM 推論エンジン「Infire」を公開——グローバルネットワーク上でのAI実行を効率化

format_list_bulleted発表内容

概要

事実のポイント

用語・背景の補足

注意点

編集部見解

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

Cloudflare、独自開発の LLM 推論エンジン「Infire」を公開——グローバルネットワーク上でのAI実行を効率化

format_list_bulleted発表内容

概要

事実のポイント

用語・背景の補足

注意点

編集部見解

出典

Google I/O 2026（5月19日）でGemini 4発表へ——ARC-AGI2スコア84.6%・2M トークンコンテキスト

DeepSeek V4、MIT ライセンスで公開——Claude Opus 4.7 と肩を並べる性能を3分の1以下のコストで

Cloudflareが独自LLM推論エンジン「Infire」と重みの圧縮技術「Unweight」を公開

TensorRT-LLM で自社ホストAIの推論コストを30〜40%削減する設計

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

「ある業務コストが 1/100 になる競合」と戦えない時代へ｜AI 導入が選択肢でなく前提条件になる構造

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査