今日の AI 推論は、もはや単一構成だけで扱える問題ではありません。モデルの大型化と運用環境のスケールに伴い、LLM(大規模言語モデル)の提供で最もコストがかかるのは、トークンあたりの FLOPs ではなく、リソースの断片化や遊休時間、アクセラレータ間の不均衡配置といった非効率性です。
Midokura では、時間の経過とともに進化する GPU 中心の AI ファクトリーを設計してきました。これらのクラスタは段階的にアップグレードされ、複数世代の GPU、CPU ノード、NPU、メモリ容量の異なる構成など、さまざまな種類のハードウェアが混在する環境へと変化していきます。このような環境では、TOPS のわずかな違いよりも、推論ワークロードをどれだけ効率的に配置できるかがより重要になりつつあります。
こうした背景から、「ヘテロジニアス・クラスタから、有効スループットを最大限に引き出すにはどうすればよいのか?」という質問をいただくことが増えています。
その答えとして注目されているのが、Prefill/Decode Disaggregation(プリフィル/デコード分離)です。
なぜ Prefill と Decode は本質的に異なるワークロードなのか
LLM の推論処理は、次の 2 つの技術フェーズで構成されています。
- Prefill(コンテキスト処理)
- プロンプトを処理
- 高い並列処理性能
Tensor Core の高効率利用 - 大きなメモリ帯域幅
- Decode(トークンを 1 つずつ生成)
- レイテンシーに敏感なシーケンシャル処理
- マトリックスコアの低い利用率
- 小バッチ、高いキャッシュ局所性
これらのフェーズは、ハードウェアへの負荷特性が異なります。
| 特性 | Prefill | Decode |
| 並列性 | 高い | 低い / シーケンシャル |
| 最適なハードウェア | 最新の GPU | 旧世代 GPU、NPU、CPU |
| メモリ帯域の要求 | 高い | 中程度 |
| 計算負荷の傾向 | 瞬間的 | 低く持続的 |
| レイテンシの影響度 | 中程度 | 高い |
こうしたワークロードの非対称性が、最適なリソース割り当て(right-sizing)を可能にします。
ヘテロジニアス・クラスタの登場
データセンターの現場では、ハードウェアが完全に統一されているケースはほとんどありません。
- 世代アップグレード(H100 → B200 → Blackwell+ …)
- 推論に特化した NPU
- MIG やソフトウェアスライシングによる GPU パーティション
- AVX-512 を備えた CPU ノード
- LPU やメモリ近接アクセラレータ
従来のスケジューラは、クラスタを一括りに扱う傾向があります。その結果、コスト面でのポテンシャルが十分に活かされません。
そこで私たちは、あえて異なる種類のハードウェアを組み合わせる設計に注目しました。
- Tier-1 アクセラレータ(最新 GPU)を Prefillフェーズのバースト処理に使用
- Tier-2 アクセラレータ(旧世代 GPU や NPU、スライス構成など)をDecode フェーズに使用
- CPU フォールバックによるロングテールのトークン生成
このアプローチにより、費用対効果の高いスループット向上が実現できます。
分離によって異種ハードウェアを活用できるワケ
Prefill はピーク性能と帯域幅を必要としますが、Decode のワークロード特性は大きく異なります。
この 2 つを同じ最新 GPU に載せてしまうと、
- Prefill は高速に実行できる✅
- Decode は、トークンを 1 つずつ生成する処理のため、高価な GPU を占有してしまう✅
分離すると、
- Prefill:A100 / B100 / B200
- Decode:A40 / A10、または NPU のスライス構成
その結果、「交通渋滞の中をランボルギーニで走るような」非効率を避けられるようになります。
GPU スライシングがもたらす新しい前提
GPU が巨大化し、単一の推論リクエストでは性能を持て余すようになってきました。これに加えて、MIG やソフトウェア定義型 GPU パーティショニングの進化により、1 つの GPU を複数の独立した計算パーティションに分割できるようになっています。
そこで、自然と次の疑問が浮かびます。
GPU をスライスできるようになった今でも、Prefill / Decode の分離は有効なのか?
結論としては、多くのケースで依然として有効です。ただし、その理由はこれまでとは少し変わってきます。
スライスが最適解となるケース
- 均一構成の場合
- トークンのバッチ処理が中心の場合
- SLA でレイテンシの一貫性が最優先される場合
スライスを活用することで得られるメリット
- テイルレイテンシのばらつきを最小化できる
- 多くの Decode ストリームを高密度に収容できる
- ワークロードを安全かつ確実に分離できる
それでも分離が優位となるケース
- スライスごとに性能が揃っていない(異なる SKU が混在している)場合
- Decode のスループットがスライスを飽和させない場合
- Prefill が大容量の共有メモリを必要とする場合
例えば、72 GB のスライスでは Prefill のコンテキスト処理で詰まりやすい一方、フル GPU なら高い性能を発揮できます。
ヘテロジニアス環境では、「スライシング」と「フェーズ分離」を併用することで、最適なリソース活用が可能になります。
- Prefill には大きめのスライスを割り当てる
- Decode ストリームには小さめのスライスを割り当てる
- 旧世代 GPU は Decode 専用のプールとして活用する
こうした構成により、デバイスの利用率は理論上の最大値に近づいていきます。
経済性の観点:$/token をハードウェア特性に最適化する
直感的には、次のように整理できます。
- Prefill のコスト ≈ メモリ帯域幅によって制約される
- Decode のコスト ≈ レイテンシによって制約される
新しい GPU はどちらの要素も改善しますが、Decode のレイテンシ改善は早い段階で頭打ちになりがちです。
要は、
- 最も高価なシリコンは、その性能を最大限発揮できる処理に使う。
- そうでない処理には、旧世代や低コストのシリコンを割り当てる。
長期的には、Decode が旧世代デバイスの生産性を高める要因になります。
引退させることなく、引き続き活用し続けることができます。
アクセラレータを超えたスケジューリングへ
分離することによって、次のようなスケジューリングが可能になります。
- フェーズ単位での QoS 配置
- テナント間の公平なキュー管理
- 適切に調整されたバッチング
- トークンレベルでの負荷分散
- インタラクティブ処理に対する優先度の引き上げ
こうした仕組みは、マルチテナント環境では単純な計算性能以上に重要になります。
より大きな潮流:AI のマイクロサービス化
推論パイプラインは、分散システムに近い姿へと進化しています。
- KV-cache ルーティング
- トークンルーター
- 投機的デコーディング
- 信頼度ベースの分岐処理
- 複数モデルを組み合わせたツールオーケストレーション
Prefill / Decode の分離は、こうしたアーキテクチャ変革の最初の分岐点にすぎません。
今後のアクセラレータは、単なる “GPU” として扱われるものではなく、分化していくと考えられます。
- コンテキストエンジン
- デコードタイル
- KV-cache ファブリック
- 低レイテンシなインターポーザ
こうした変化を前提にしたソフトウェアアーキテクチャが求められます。
Midokura が次に取り組むこと
Midokura のプロダクトが向かうべき方向性が、よりはっきり見えてきました。
- フェーズを理解したスケジューラの実装
- KV-cache を扱うファブリックサービス
- リクエスト単位での動的 GPU スライシング
- 複数 GPU 世代を組み合わせたハードウェア活用
- コストを考慮した配置戦略
- トークン単位での輻輳(ふくそう)管理
私たちの使命は、AI ファクトリーの 「有効計算能力」 を最大化することであり、FLOPs という数字そのものではありません。
まとめ
ハードウェアのヘテロジニアス化は、障害ではありません。むしろ、大きなチャンスです。
Prefill / Decode の分離によって、次のような価値を引き出せます。
- 世代の異なるハードウェアを最大限に活用できる
- シリコンの遊休を減らせる
- 旧世代ハードウェアの寿命を伸ばせる
- 安定したレイテンシを確保
- 電力・コスト・ラックスペースあたりのスループットを大幅に高められる
モデルサイズが肥大化し、GPU コストが上昇し続けるいま、既存リソースの有効計算能力を余すことなく活用する戦略こそが、AI オペレーションの成否を左右します。
推論の未来は、巨大な GPU が 1 台で全てを処理する世界ではありません。フェーズを理解し、用途に応じて柔軟に構成でき、さまざまなアクセラレータを主役として扱う多層的なコンピュートファブリックへと移行していきます。
そしてこの進化は、まだ始まったばかりです。