ブログ

by Mari Ikeda

PrefillとDecodeの分離と、ヘテロジニアス型 AI コンピュート環境における新たな経済性

今日の AI 推論は、もはや単一構成だけで扱える問題ではありません。モデルの大型化と運用環境のスケールに伴い、LLM（大規模言語モデル）の提供で最もコストがかかるのは、トークンあたりの FLOPs ではなく、リソースの断片化や遊休時間、アクセラレータ間の不均衡配置といった非効率性です。

Midokura では、時間の経過とともに進化する GPU 中心の AI ファクトリーを設計してきました。これらのクラスタは段階的にアップグレードされ、複数世代の GPU、CPU ノード、NPU、メモリ容量の異なる構成など、さまざまな種類のハードウェアが混在する環境へと変化していきます。このような環境では、TOPS のわずかな違いよりも、推論ワークロードをどれだけ効率的に配置できるかがより重要になりつつあります。

こうした背景から、「ヘテロジニアス・クラスタから、有効スループットを最大限に引き出すにはどうすればよいのか？」という質問をいただくことが増えています。
その答えとして注目されているのが、Prefill/Decode Disaggregation（プリフィル／デコード分離）です。

なぜ Prefill と Decode は本質的に異なるワークロードなのか

LLM の推論処理は、次の 2 つの技術フェーズで構成されています。

Prefill（コンテキスト処理）
- プロンプトを処理
- 高い並列処理性能
  Tensor Core の高効率利用
- 大きなメモリ帯域幅
Decode（トークンを 1 つずつ生成）
- レイテンシーに敏感なシーケンシャル処理
- マトリックスコアの低い利用率
- 小バッチ、高いキャッシュ局所性

これらのフェーズは、ハードウェアへの負荷特性が異なります。

特性	Prefill	Decode
並列性	高い	低い / シーケンシャル
最適なハードウェア	最新の GPU	旧世代 GPU、NPU、CPU
メモリ帯域の要求	高い	中程度
計算負荷の傾向	瞬間的	低く持続的
レイテンシの影響度	中程度	高い

こうしたワークロードの非対称性が、最適なリソース割り当て（right-sizing）を可能にします。

ヘテロジニアス・クラスタの登場

データセンターの現場では、ハードウェアが完全に統一されているケースはほとんどありません。

世代アップグレード（H100 → B200 → Blackwell+ …）
推論に特化した NPU
MIG やソフトウェアスライシングによる GPU パーティション
AVX-512 を備えた CPU ノード
LPU やメモリ近接アクセラレータ

従来のスケジューラは、クラスタを一括りに扱う傾向があります。その結果、コスト面でのポテンシャルが十分に活かされません。

そこで私たちは、あえて異なる種類のハードウェアを組み合わせる設計に注目しました。

Tier-1 アクセラレータ（最新 GPU）を Prefillフェーズのバースト処理に使用
Tier-2 アクセラレータ（旧世代 GPU や NPU、スライス構成など）をDecode フェーズに使用
CPU フォールバックによるロングテールのトークン生成

このアプローチにより、費用対効果の高いスループット向上が実現できます。

分離によって異種ハードウェアを活用できるワケ

Prefill はピーク性能と帯域幅を必要としますが、Decode のワークロード特性は大きく異なります。
この 2 つを同じ最新 GPU に載せてしまうと、

Prefill は高速に実行できる✅
Decode は、トークンを 1 つずつ生成する処理のため、高価な GPU を占有してしまう✅

分離すると、

Prefill：A100 / B100 / B200
Decode：A40 / A10、または NPU のスライス構成

その結果、「交通渋滞の中をランボルギーニで走るような」非効率を避けられるようになります。

GPU スライシングがもたらす新しい前提

GPU が巨大化し、単一の推論リクエストでは性能を持て余すようになってきました。これに加えて、MIG やソフトウェア定義型 GPU パーティショニングの進化により、1 つの GPU を複数の独立した計算パーティションに分割できるようになっています。

そこで、自然と次の疑問が浮かびます。

GPU をスライスできるようになった今でも、Prefill / Decode の分離は有効なのか？

結論としては、多くのケースで依然として有効です。ただし、その理由はこれまでとは少し変わってきます。

スライスが最適解となるケース

均一構成の場合
トークンのバッチ処理が中心の場合
SLA でレイテンシの一貫性が最優先される場合

スライスを活用することで得られるメリット

テイルレイテンシのばらつきを最小化できる
多くの Decode ストリームを高密度に収容できる
ワークロードを安全かつ確実に分離できる

それでも分離が優位となるケース

スライスごとに性能が揃っていない（異なる SKU が混在している）場合
Decode のスループットがスライスを飽和させない場合
Prefill が大容量の共有メモリを必要とする場合

例えば、72 GB のスライスでは Prefill のコンテキスト処理で詰まりやすい一方、フル GPU なら高い性能を発揮できます。

ヘテロジニアス環境では、「スライシング」と「フェーズ分離」を併用することで、最適なリソース活用が可能になります。

Prefill には大きめのスライスを割り当てる
Decode ストリームには小さめのスライスを割り当てる
旧世代 GPU は Decode 専用のプールとして活用する

こうした構成により、デバイスの利用率は理論上の最大値に近づいていきます。

経済性の観点：$/token をハードウェア特性に最適化する

直感的には、次のように整理できます。

Prefill のコスト ≈ メモリ帯域幅によって制約される
Decode のコスト ≈ レイテンシによって制約される

新しい GPU はどちらの要素も改善しますが、Decode のレイテンシ改善は早い段階で頭打ちになりがちです。
要は、

最も高価なシリコンは、その性能を最大限発揮できる処理に使う。
そうでない処理には、旧世代や低コストのシリコンを割り当てる。

長期的には、Decode が旧世代デバイスの生産性を高める要因になります。

引退させることなく、引き続き活用し続けることができます。

アクセラレータを超えたスケジューリングへ

分離することによって、次のようなスケジューリングが可能になります。

フェーズ単位での QoS 配置
テナント間の公平なキュー管理
適切に調整されたバッチング
トークンレベルでの負荷分散
インタラクティブ処理に対する優先度の引き上げ

こうした仕組みは、マルチテナント環境では単純な計算性能以上に重要になります。

より大きな潮流：AI のマイクロサービス化

推論パイプラインは、分散システムに近い姿へと進化しています。

KV-cache ルーティング
トークンルーター
投機的デコーディング
信頼度ベースの分岐処理
複数モデルを組み合わせたツールオーケストレーション

Prefill / Decode の分離は、こうしたアーキテクチャ変革の最初の分岐点にすぎません。

今後のアクセラレータは、単なる “GPU” として扱われるものではなく、分化していくと考えられます。

コンテキストエンジン
デコードタイル
KV-cache ファブリック
低レイテンシなインターポーザ

こうした変化を前提にしたソフトウェアアーキテクチャが求められます。

Midokura が次に取り組むこと

Midokura のプロダクトが向かうべき方向性が、よりはっきり見えてきました。

フェーズを理解したスケジューラの実装
KV-cache を扱うファブリックサービス
リクエスト単位での動的 GPU スライシング
複数 GPU 世代を組み合わせたハードウェア活用
コストを考慮した配置戦略
トークン単位での輻輳（ふくそう）管理

私たちの使命は、AI ファクトリーの「有効計算能力」を最大化することであり、FLOPs という数字そのものではありません。

まとめ

ハードウェアのヘテロジニアス化は、障害ではありません。むしろ、大きなチャンスです。

Prefill / Decode の分離によって、次のような価値を引き出せます。

世代の異なるハードウェアを最大限に活用できる
シリコンの遊休を減らせる
旧世代ハードウェアの寿命を伸ばせる
安定したレイテンシを確保
電力・コスト・ラックスペースあたりのスループットを大幅に高められる

モデルサイズが肥大化し、GPU コストが上昇し続けるいま、既存リソースの有効計算能力を余すことなく活用する戦略こそが、AI オペレーションの成否を左右します。

推論の未来は、巨大な GPU が 1 台で全てを処理する世界ではありません。フェーズを理解し、用途に応じて柔軟に構成でき、さまざまなアクセラレータを主役として扱う多層的なコンピュートファブリックへと移行していきます。

そしてこの進化は、まだ始まったばかりです。