articleニュース
Cloudflare、独自開発の LLM 推論エンジン「Infire」を公開——グローバルネットワーク上でのAI実行を効率化
Cloudflare がグローバルネットワーク上で LLM を効率的に実行するための独自推論エンジン「Infire」を公開。複数 GPU をまたいだ高速推論・メモリ使用量の最適化・起動時間の短縮を実現するとしている。
format_list_bulleted発表内容
- Cloudflare が独自開発の LLM 推論エンジン「Infire」を公開(2026年5月)
- 複数 GPU をまたいで LLM を実行でき、メモリ使用量の削減・モデル起動時間の短縮を実現
- Cloudflare Birthday Week 2025 に発表されたエンジンを実用化したもの
- Cloudflare のグローバル分散ネットワーク(200以上の都市)上で LLM を実行可能にすることを目指す
概要
Cloudflare は2026年5月、複数 GPU をまたいで大規模言語モデル(LLM)を効率的に実行する独自の AI 推論エンジン「Infire」を公開した。メモリ効率の改善とモデル起動時間の短縮により、グローバルなエッジネットワーク上での LLM 実行を実現しようとする取り組みである。
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
事実のポイント
- Infire の特徴: 複数 GPU にまたがって LLM を実行できる推論エンジン。単一 GPU のメモリ制限を超えた大型モデルの実行が可能
- 最適化内容: 従来比でメモリ使用量の削減・モデル起動時間の短縮を達成
- 起源: 2025年の Cloudflare Birthday Week で発表されたエンジンを実用化
- 目的: Cloudflare の世界200都市以上の分散エッジネットワーク上で LLM を実行可能にし、低遅延の AI 推論サービスを提供する
用語・背景の補足
「AI 推論(inference)」とは、学習済みのモデルを実際に入力データに対して適用し、出力を生成するプロセス。AI の「学習」フェーズと対比される「使う」フェーズにあたる。エンタープライズにおいてコスト・遅延・スループットを左右する重要な工程である。
「エッジネットワーク」とは、データセンターから離れた地理的に分散した拠点でのコンピューティング。ユーザーの近くで処理を行うことで通信遅延を短縮できる。
注意点
- Infire の詳細な技術仕様・対応モデル一覧は InfoQ および Cloudflare 公式を参照
- 2025年 Birthday Week 発表との差分は公式ドキュメントで確認を推奨
編集部見解
(追記予定)
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。