ファクトシート
| 発表時期 | 2026-05 |
|---|---|
| 関連企業 | Cloudflare |
| 種別 | AIインフラ技術 |
articleニュース
CloudflareがグローバルネットワークでLLMを実行するための独自推論エンジン「Infire」と、モデル重みを15〜22%圧縮する「Unweight」技術を公開。コールドスタート20秒以内・スループット20%向上を実現し、70以上のAIモデルへの統一APIを提供するAI Gatewayも拡充した。
| 発表時期 | 2026-05 |
|---|---|
| 関連企業 | Cloudflare |
| 種別 | AIインフラ技術 |
Cloudflareは2026年5月、大規模言語モデルをグローバルエッジネットワークで実行するための独自推論エンジン「Infire」と、重みを圧縮する技術「Unweight」を公開した。コールドスタート時間を20秒以内に短縮し、スループットを20%向上させると発表。あわせてAI Gatewayが70以上のAIモデルへの統一アクセスを提供するプラットフォームに拡張された。
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
「推論(Inference)」とはAIモデルがすでに訓練されており、ユーザーの入力に対して応答を生成する処理を指す。モデルの「訓練」と区別される。推論は低レイテンシと高スループットが求められ、大規模サービスではGPUを大量に使う。
「コールドスタート」とはリクエストが来た際に、モデルがメモリに読み込まれていない状態から起動する時間。ウォームスタート(すでに読み込み済み)に比べて大幅に時間がかかるため、AIサービスの体感速度に影響する。Infireは最大規模のモデルでも20秒以内を達成したと発表。
「Workers AI」はCloudflareがエッジ(ユーザーに近いデータセンター)でAI推論を実行するためのプラットフォーム。世界320以上の都市にあるCloudflareのPOP(接続ポイント)でAI処理が行える設計になっている。
AI推論インフラはAI産業の競争の新たな主戦場になっている。モデル自体の開発ではなく、「いかに速く・安く・スケーラブルに推論するか」の競争だ。Cloudflareの参入は、既存のAWS・GCP・Azureのクラウド大手に加え、エッジコンピューティングの強みを持つCDN企業がAIインフラ市場に食い込む動きを示す。
Unweightによる15〜22%の重み圧縮は、GPUが処理するデータ量を削減することで、より少ないハードウェアで同等の処理を可能にする。GPU不足が続く現在の市場環境において、ハードウェア効率の改善は経済的優位に直結する。
AI Gateway経由で70以上のモデルに単一APIでアクセスできるプラットフォームは、開発者がモデルプロバイダーをシームレスに切り替えられる環境を提供する。これはベンダーロックインの軽減という観点でも意義がある。
(追記予定)
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。