Cloudflareが独自LLM推論エンジン「Infire」と重みの圧縮技術「Unweight」を公開

CloudflareがグローバルネットワークでLLMを実行するための独自推論エンジン「Infire」と、モデル重みを15〜22%圧縮する「Unweight」技術を公開。コールドスタート20秒以内・スループット20%向上を実現し、70以上のAIモデルへの統一APIを提供するAI Gatewayも拡充した。

ファクトシート

発表時期	2026-05
関連企業	Cloudflare
種別	AIインフラ技術

概要

Cloudflareは2026年5月、大規模言語モデルをグローバルエッジネットワークで実行するための独自推論エンジン「Infire」と、重みを圧縮する技術「Unweight」を公開した。コールドスタート時間を20秒以内に短縮し、スループットを20%向上させると発表。あわせてAI Gatewayが70以上のAIモデルへの統一アクセスを提供するプラットフォームに拡張された。

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

事実のポイント

Infireエンジン: 複数GPUにまたがるLLM実行を最適化した独自推論エンジン。コールドスタート20秒以内（ドライブ速度が上限）
Unweight技術: LLMの重みを15〜22%圧縮しながら精度を維持。GPUがロード・移動するデータ量を削減
Disaggregated Prefill: 入力処理（プリフィル・KVキャッシュ生成）と出力生成（デコード）を異なる最適化システムに分離
AI Gateway拡充: 70以上のAIモデル（複数プロバイダー）への単一APIアクセス。開発コストとコスト管理を簡素化
Replicate連携: Replicateのモデル群をAI GatewayとWorkers AIに移植し、従来のReplicateユーザーがCloudflare経由でアクセス可能に

用語・背景の補足

「推論（Inference）」とはAIモデルがすでに訓練されており、ユーザーの入力に対して応答を生成する処理を指す。モデルの「訓練」と区別される。推論は低レイテンシと高スループットが求められ、大規模サービスではGPUを大量に使う。

「コールドスタート」とはリクエストが来た際に、モデルがメモリに読み込まれていない状態から起動する時間。ウォームスタート（すでに読み込み済み）に比べて大幅に時間がかかるため、AIサービスの体感速度に影響する。Infireは最大規模のモデルでも20秒以内を達成したと発表。

「Workers AI」はCloudflareがエッジ（ユーザーに近いデータセンター）でAI推論を実行するためのプラットフォーム。世界320以上の都市にあるCloudflareのPOP（接続ポイント）でAI処理が行える設計になっている。

解説

AI推論インフラはAI産業の競争の新たな主戦場になっている。モデル自体の開発ではなく、「いかに速く・安く・スケーラブルに推論するか」の競争だ。Cloudflareの参入は、既存のAWS・GCP・Azureのクラウド大手に加え、エッジコンピューティングの強みを持つCDN企業がAIインフラ市場に食い込む動きを示す。

Unweightによる15〜22%の重み圧縮は、GPUが処理するデータ量を削減することで、より少ないハードウェアで同等の処理を可能にする。GPU不足が続く現在の市場環境において、ハードウェア効率の改善は経済的優位に直結する。

AI Gateway経由で70以上のモデルに単一APIでアクセスできるプラットフォームは、開発者がモデルプロバイダーをシームレスに切り替えられる環境を提供する。これはベンダーロックインの軽減という観点でも意義がある。

注意点

性能指標はCloudflareの自社テスト・計測に基づくものであり、実際の環境では異なる場合がある
AI Gatewayの対応モデル数は更新される可能性があり、常に最新情報の確認が必要
エッジでの推論は全てのモデル・ワークロードに適するわけではなく、用途に応じた選択が必要

編集部見解

（追記予定）

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

format_list_bulleted発表内容

ファクトシート

概要

事実のポイント

用語・背景の補足

解説

注意点

編集部見解

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

Cloudflareが独自LLM推論エンジン「Infire」と重みの圧縮技術「Unweight」を公開

format_list_bulleted発表内容

ファクトシート

概要

事実のポイント

用語・背景の補足

解説

注意点

編集部見解

出典

Google I/O 2026（5月19日）でGemini 4発表へ——ARC-AGI2スコア84.6%・2M トークンコンテキスト

DeepSeek V4、MIT ライセンスで公開——Claude Opus 4.7 と肩を並べる性能を3分の1以下のコストで

中国AI勢が12日間で4モデル一斉公開——欧米フロンティアに匹敵するコーディング性能を3分の1のコストで

TensorRT-LLM で自社ホストAIの推論コストを30〜40%削減する設計

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

「ある業務コストが 1/100 になる競合」と戦えない時代へ｜AI 導入が選択肢でなく前提条件になる構造

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査