by Mari Ikeda

GPU選定で後悔しないために。GPUスペック表の読み方と選定チェックリスト

GPUサーバーの導入を検討し始めると、必ず直面するのがスペック表との格闘です。

「FP16」「HBM3e」「NVLink」…聞き慣れない用語が並び、「結局どこを見ればいいの?」と感じる方も多いのではないでしょうか。

本記事では、GPUスペック表の主な指標をやさしく解説し、用途別に「何を重視すべきか」を整理します。最後にはチェックリストもご用意していますので、選定の際にぜひお役立てください。


スペック表で押さえるべき5つの指標

① 演算性能(TFLOPS):処理の速さを表す数字

TFLOPS(テラフロップス)は、GPUが1秒間に実行できる浮動小数点演算の回数を示します。数値が大きいほど処理が速いと考えてください。

ただし、同じTFLOPSでも精度(FP64・FP32・FP16・BF16・FP8・FP4)によって数値が大きく変わります。

精度特徴主な用途
FP64(倍精度)最も高精度科学技術計算・シミュレーション
FP32(単精度)汎用的な精度汎用的なAI学習
FP16 / BF16(半精度)高速・省メモリLLM(大規模言語モデル)の学習・推論
FP8 / FP4超高速・低精度大規模推論・最新モデル向け

📌 POINT LLMの学習・推論にはFP16またはBF16の数値を重視しましょう。選択する精度によって性能差が出るため、用途に合う精度の数値を確認することが必要です。

【補足】スパース性能とは?
スペック表には「スパース性能」という欄が記載されている場合があります。これは、ニューラルネットワークの重みのうちゼロに近い値を省略して計算を高速化する技術(スパース化)を活用したときの性能値です。通常性能(Dense)の最大2倍の数値が記載されますが、スパース化にはモデルの精度が多少低下するリスクがあり、すべての用途で効果が出るわけではありません。カタログ上の高い数値に惑わされず、まずは通常性能(Dense)の数値で比較することをおすすめします

② GPUメモリ(VRAM)容量と帯域幅:モデルが乗るかどうかの鍵

GPUメモリ(VRAM)は、AIモデルや処理データを一時的に格納する領域です。モデルのサイズがVRAMに収まらない場合、どれだけ演算性能が高くても意味がありません。

たとえば、モデルサイズが7Bの場合に必要なVRAM容量は、
70億個(パラメータ数) x 2 byte(FP16の場合、1パラメータ当たり16bit) = 140億byte 

つまり14GB以上必要となります。

また、メモリ帯域幅(TB/s)はデータをどれだけ速くGPUコアに供給できるかを示します。帯域幅が不足すると、演算コアが速くてもデータ待ちのボトルネックが生じます。

③ GPU間通信速度(NVLink / InfiniBand / RoCEv2):複数GPU構成の要

複数のGPUを連携させる場合、GPU間の通信速度が性能を大きく左右します。ここで重要なのが「サーバー内(ノード内)」「サーバー間(ノード間)」で使われる技術が異なるという点です。

●サーバー内:NVLink
1台のサーバーに搭載された複数のGPU同士をつなぐ技術がNVIDIA®NVLink™です。GPU同士が直接高速通信できるため、同一サーバー内での分散処理に非常に効果的です。NVIDIA H100は0.9 TB/s、B200は1.8 TB/sのNVLink帯域幅を持ち、同じ8GPU構成でも世代によって分散学習の効率に大きな差が生まれます。

●サーバー間:InfiniBand / RoCEv2
複数のサーバーをまたいでGPU間通信を行う場合は、InfiniBandやRoCEv2(RDMA over Converged Ethernet version 2)といったネットワーク技術が使われます。これらはいずれもRDMA(Remote Direct Memory Access)という仕組みを活用しており、CPUやOSを介さずにサーバー間で直接メモリのデータをやり取りできるため、遅延を最小化しながら大規模な分散学習や推論を実現できます。

・InfiniBand
超低遅延・高帯域幅を実現するネットワーク技術で、大規模なデータを高速にやり取りできることからスーパーコンピューターやHPCクラスタで長年採用

・RoCEv2
標準のEthernetインフラ上でRDMAを実現。InfiniBandより導入コストを抑えられ、昨今の技術進化により大規模環境でも実用的な性能が出るケースが増えている

📌 POINT 最近ではRoCEv2のように標準的なEthernetインフラ上でRDMAを活用するプロトコルも普及してきており、Ethernet接続のGPUサーバー間でも低遅延なデータ通信が実現できるようになっています。複数のGPUを連携させる場合は、用途・予算・運用のしやすさを考慮し、インターコネクト戦略を検討することが重要です。

④ 最大消費電力(W):設備要件に直結する数字

高性能なGPUほど消費電力は大きくなります。たとえば、NVIDIA B200では1基あたり最大1,000Wに達します。

消費電力は冷却方式・電源設備・ランニングコストに直結するため、スペックと同時に確認することが重要です。

冷却方式特徴対応する消費電力帯
空冷(パッシブ)設備がシンプル・低コスト〜700W程度
空冷(アクティブ/ブロワー)ファンで強制冷却300〜700W
液冷(水冷)高効率・静音700W〜
液冷必須(ラック全体)大規模・高密度向け1,000W超

📌 POINT 「自社のサーバールームは何kVAまで対応できるか」を事前に確認しましょう。スペックが優れていても、設備要件を満たせなければ導入できません。

⑤ アーキテクチャと世代:将来性とソフトウェア対応の確認

GPUには世代があり、新しいアーキテクチャほど新しいソフトウェア機能(FP8演算、Transformer Engine等)に対応しています。

現在の主要世代は以下の通りです。

世代代表モデル特徴
Vera RubinRubin GPU / NVL72HBM4搭載・Blackwell比推論5倍
BlackwellB200 / B300 / GB200FP4対応・最高性能
HopperH100 / H200現行主力・実績豊富
AmpereA100枯れた技術・安定運用向け
Ada LovelaceRTX A6000 Adaワークステーション向け

📌 POINT 最新世代は性能が高い反面、対応ソフトウェアやノウハウがまだ少ない場合があります。「今すぐ安定稼働させたい」ならHopper世代、「最大性能を追求したい」ならBlackwell世代が目安です。


スペック選びで失敗しないチェックリスト

導入前に以下の項目を確認しましょう。

【用途・モデルサイズの確認】

 ☐ 学習・推論・両方のどちらが主な用途か

 ☐ 扱うAIモデルのパラメータ数(目安のVRAM要件)を把握しているか

 ☐ シングルGPUで足りるか、マルチGPU構成が必要か

【スペックの確認】

 ☐ 用途に合った精度(FP16/BF16等)でのTFLOPS値を比較しているか

 ☐ VRAMの容量がモデルサイズに対して十分か

 ☐ マルチGPU構成の場合、通信戦略を確認したか

【設備・運用要件の確認】

 ☐ 最大消費電力と自社の電源容量が合っているか

 ☐ 冷却方式(空冷・液冷)と自社設備が対応しているか

 ☐ 導入後の運用・保守体制(専門人材・監視ツール)を検討しているか


まとめ

  • GPUスペック表ではTFLOPSの精度」「VRAMとその帯域幅」「NVLink速度」「消費電力」「世代」の5点を軸に見る
  • 用途に合った精度の数値を比較しないと、選定ミスにつながる
  • スペックだけでなく、電源・冷却などの設備要件と運用体制もセットで検討することが重要

Midokuraなら、スペック選定から導入・運用まで一貫サポート

「チェックリストを見たけど、結局どれを選べばいいかわからない」という方へ。Midokuraでは、お客様の用途・設備環境・予算をヒアリングしたうえで、最適なGPUサーバー構成をご提案します。複数のサーバーを運用する場合も、ネットワークを含めたソリューションの提案が可能です。オーバースペックによる無駄なコストも、スペック不足による失敗も、事前の相談で防ぐことができます。

MidokuraのGPUスペック比較表(2026年版)はこちらからご確認いただけます。
※お名前・メールアドレスのご登録後にダウンロードいただけます。

👉 スペック選定のご相談・お見積りはこちら

「まだ要件が固まっていない」という段階からでもお気軽にどうぞ。構成のご相談から運用サポートまでトータルでお手伝いします。