10/01/2024

エヌビディア（NVDA：Nvidia）の強み：BlackwellやGB200とは？製品の詳細と推論最適化の仕組みに迫る！

ダグラス・オローリン

本稿では、Blackwell GPU（B100）やGB200といったエヌビディア（NVDA：Nvidia）の製品の一覧と各製品の詳細、並びに、同社のRASエンジンや推論の最適化の仕組みの分析を通じて、同社のテクノロジー上の強みを詳しく解説していきます。
エヌビディアの新しいBlackwell GPUは、H100と互換性を持ちながら、8層のHBMメモリを搭載し、強力なメモリ帯域幅を提供しています。
GB200は、2つのBlackwell GPUと1つのGrace CPUで構成され、性能と効率の向上を図り、大規模なモデルに対して合理的な選択肢を提供しています。
エヌビディアのネットワーク技術、NVSwitchとInfiniband、そしてNVLinkスイッチによって、システム全体の性能が大幅に向上し、競合他社よりも優れた性能を実現しています。

※「エヌビディア（NVDA）は何がすごい？3月のジェンセンCEOによる基調講演の分析を通じて、同社の強みと魅力を徹底解説！」の続き

エヌビディア（NVDA：Nvidia）の製品

まずはエヌビディア（NVDA：Nvidia）の象徴ともいえるGPUから見ていきましょう。

エヌビディア（NVDA：Nvidia）のBlackwell GPU（B100）

エヌビディア（NVDA：Nvidia）のBlackwell GPUは既存のH100（エヌビディアの最新世代の高性能GPU）と互換性がありますが、多くの顧客は新規システムへの導入時に使用することが多いでしょう。

このGPUは8 TB/s（テラバイト毎秒）のメモリ帯域幅を持ち、8段積みの8-Hi HBM（高速なメモリであるHBMが8層に積み重ねられた構造を示しており、より高いメモリ帯域幅を実現するために使われる）を搭載しています。

基本的には空冷が推奨されていますが、メモリ容量がさらに大きいSKU（Stock Keeping Unit）では将来的に水冷が採用される可能性があります。

しかし、エヌビディアが注目している「大きな」GPUはこれだけではありません。

当基調講演で紹介されたのは、GPUとCPUの比率を2倍にしたGB200（エヌビディアの最新世代のコンピューティングユニット）で、GH200（GB200の前世代）から大幅に改良されています。

エヌビディア（NVDA：Nvidia）のGB200

以下の図に示す通り、GB200は2つのBlackwellと1つのGrace CPU（エヌビディアが開発した高性能なサーバー向けCPUで、AIやデータセンターのワークロードに特化）で構成されており、これによりCPUコストが抑えられ、GPUのメモリコントローラー（CPUやGPUとメモリの間のデータのやり取りを管理する部品）としての役割も果たしています。

1つのGB200は、さらに480GBのLPDDR5 DRAM（低消費電力で高速なデータ転送が可能なメモリの一種で、スマートフォンやノートパソコンなど、省エネルギーが求められるデバイスに使用される）をスケールアウト（システムの性能や処理能力を向上させるために、サーバーやノード（ネットワークやコンピュータシステム内での独立した機器やコンポーネントを指す）などのコンピュータユニットを横に追加して拡張すること）でき、大規模なモデル向けにもう一段階遅いキャッシュメモリを追加できます。

HBMのスケーリングがより望ましいものの、特に推論ノードにおいては合理的な選択といえるでしょう。

また、これらの計算ノードを2つ組み合わせて1つのブレード（複数のサーバーやコンピュータユニットをまとめた専用の薄型モジュール）に4つのBlackwell GPUを搭載し、複数のブレードを一つのシステムに統合しています。

DGXポッド（エヌビディアが提供するAIトレーニング向けの高性能なコンピューティングシステム）について説明する前に、まずエヌビディアのネットワークに関するいくつかの要素を見ていきましょう。

エヌビディア（NVDA：Nvidia）のNVSwitchとInfiniband

まず、NVSwitchとは、エヌビディアの技術で、複数のGPU間で非常に高速なデータ転送を可能にするスイッチです。

これにより、複数のGPUが協力して効率的に計算を行うことができます。

一方で、Infinibandとは、高速で低遅延なデータ通信を提供するネットワーク技術で、特にスーパーコンピュータやデータセンターで利用されます。

大量のデータを迅速にやり取りするのに適しています。

ネットワーキングの未来はイーサネット（コンピュータやデバイスをネットワークで接続するための標準的な技術）だと言われていますが、実際にはInfinibandが強力で、1つのブレードから4つの800G NIC（1秒間に最大800ギガビットのデータを送受信できるネットワークインターフェースカード）を使って高性能を発揮しています。

これにより、チップ間のコヒーレンシーとネットワーク接続が実現します。

さらに、Bluefield-3 DPU（エヌビディアが開発したデータ処理ユニットで、ネットワーク、セキュリティ、ストレージ管理などのデータセンターのタスクをオフロードし、CPUやGPUの負担を減らす）も加わり、インテリジェントな推論ルーティングやRAS（システムの信頼性、可用性、保守性）を担う役割を果たしています。

このインファブリックコンピューティング（ネットワーク / ファブリック内でデータ処理を行う技術）により、システム全体の重要な最適化が可能になり、競合他社を上回るパフォーマンスを提供します。

そして、これら全てをつなぐのがNVLINKスイッチ（エヌビディアのNVLink技術を使って、複数のGPU間を高速に接続するためのスイッチ）で、NVL72（エヌビディアが提供する72ポートのNVLinkスイッチで、最大72個のGPUを接続し、高速なデータ通信を実現）と組み合わせたシステム全体の最適化が実現しています。

ここで全てが一つにまとまります――システムそのものです。

エヌビディア（NVDA：Nvidia）のDGX NVL72

この72ポート、1.8TB/sのスイッチシステムは、各GPUをキャッシュコヒーレント（複数のプロセッサやコアが同じデータをキャッシュに持つ場合に、データの整合性が保たれる仕組みのこと）に接続しており、全体の帯域幅は130TB/sと、インターネット全体を超える規模を誇ります。

本当に「革新」が見られるのは、このインターコネクト部分（複数のコンピュータやデバイスを高速に接続するための技術や仕組み）です。

エヌビディア向けに高度に最適化されており、基調講演で触れられた通り、高品質なSerDes（データを直列化して送信し、受信側で元の並列データに戻す回路）を使用した直接銅接続で構成されています。

また、エヌビディアが標準化を進めている独自のフォームファクター（電子機器や部品の形状やサイズ、取り付け規格などの物理的な仕様を指す）に接続されるようです。

まとめると、各NV72Lは72個のGPUを搭載し、これまでで最も安価で高速なネットワークスタック（コンピュータネットワークの通信を管理するために必要なソフトウェアやプロトコルの層構造のこと）を提供します。これは競合他社にとって大きな障壁であり、同じ速度を提供するのは難しいか、提供できても大きなトランシーバーコスト（データを送受信するためのデバイス、トランシーバーにかかる費用）がかかるでしょう。

ラック（サーバーやネットワーク機器などのハードウェアを効率よく収納・設置するためのフレームやキャビネット）全体でAI性能は1エクサフロップ（1秒間に1エクサである1兆の10億倍回の浮動小数点計算を行える性能）を超え、ソフトウェアはこれを1つの巨大なGPUとして扱います。

これはまさにネットワーク技術の結晶であり、スケールアウトの最高の例の一つです。

このネットワーク技術が注目を集めており、シリコン（半導体チップの材料として使用される元素）自体は重要なパーツではありますが、エヌビディアが提供するシステム全体の一部に過ぎません。

さらに、エヌビディアはラック上部にInfinibandスイッチを追加し、複数のラックを結合してより大きなノードを構築できます。

このノードには14.4テラFLOPS（1秒間に14.4兆回の浮動小数点演算を行う能力）のインネットワークコンピューティングがあり、GPUとスイッチレベルで液冷（コンピュータの冷却方法の一つで、冷却液を使って発熱する部品を効率的に冷やす技術）されています。

非常に緻密に統合されたシステムソリューションです。

さらに驚くべきことに、前世代と比べて価格の上昇は控えめで、エヌビディアはBlackwell GPUのシリコンだけでなくシステム全体から価値を引き出そうとしています。

スペックシート（製品の仕様や性能を詳細に記載した資料）を比較するのが良いでしょう。

FP4（浮動小数点演算精度の一つで、4ビットで表現される低精度の演算）はエヌビディアのみがサポートしていることは分かっていますが、Blackwell GPUとHopper（エヌビディアが開発したGPUアーキテクチャの名前）を比較すると、FP8（8ビットで表現される浮動小数点演算精度の一つで、FP4よりも精度が高く、AIトレーニングや推論で計算効率を向上させるために使用される）で2.5倍の性能向上が見られます。

これはシリコン同士の比較です。

FP4でさらに改善されることは理解していますが、ここではハードウェアの改良に焦点を当てています。

真の「革新」は、GB200 NVL72システムでGPUをスケールアウトすることで生まれており、従来のラックと比べて20倍以上、推論においては45倍の性能向上をもたらしています。

ネットワークの改善にも何か秘密が隠されているようです。

システム全体の性能に対するワットあたりの効率向上は非常に印象的です。

GPT-MoE-1.8T（大規模言語モデルの一種で、1.8兆パラメータを持つモデル）のトレーニングには4メガワット、つまりHopperの1/4の電力しか必要としません。

これはTCO（総保有コスト）の大幅な改善であり、より少ないGPUでエネルギー消費を抑えられます。

最後に、ネットワークによるエヌビディアの差別化に関連する改善点について少し触れたいと思います。まずはRASエンジン（システムの信頼性、可用性、保守性を向上させるための機能を持つエンジン）の利用、次に推論最適化（AIモデルが推論を効率的に行うようにするための手法や技術）です。

エヌビディア（NVDA：Nvidia）のRASエンジン

エヌビディア（NVDA：Nvidia）のジェンセンCEOは基調講演で興味深い話をしていました。

（原文）The likelihood for a supercomputer to run for weeks on end is approximately zero. There are so many components running at the same time the probability of them all working at the same time is extremely low.

（日本語訳）スーパーコンピュータが何週間も連続で稼働し続ける可能性はほぼゼロです。多数のコンポーネントが同時に稼働しているため、すべてが正常に動作し続ける確率は非常に低いのです。

そこで役立つのがRASエンジンです。以前、スーパーコンピュータのノードのばらつきについて興味深い記事を読みました。

（原文）Overall, every single cluster we tried feels like they have their own vibe, struggles and failure modes. It was also almost as though every single cluster needed their own hot-fixes for their own set of issues - some more tolerable than others. That said, we’ve learned that fail safes are important, and finding fast hot fixes for any clusters could be key.

（日本語訳）全体的に、試したクラスターはどれもそれぞれ独自の特徴や課題、故障のパターンを持っているように感じました。また、各クラスターごとに固有の問題に対してホットフィックス（ソフトウェアの問題を緊急に修正するための小規模な更新やパッチ）が必要で、それぞれ対応が異なりました。とはいえ、フェイルセーフ（システムに障害が発生した場合でも、安全な状態を維持する仕組みや設計）が重要であり、どのクラスターに対しても迅速にホットフィックスを見つけることが鍵であると学びました。

ChatGPT-4+のトレーニングにかかる時間を考えると、データセンター全体での障害は避けられません。

そのため、エヌビディアはクラスターの障害を防ぐため、ハードウェアレベルでの監視システムを構築しています。

そして、エヌビディアは信頼性を向上させることで、スケールアウトを可能にしようとしています。

次は、推論の最適化について説明します。

エヌビディア（NVDA：Nvidia）の推論の最適化の仕組み

この部分は講演全体で特に興奮したところの一つでした。

少し理解が難しかったですが、多次元の最適化には効率的フロンティア（リソースを最適に活用するための限界点。それ以上の改善が難しい「最適な状態」を示す曲線）があり、それはX-Yグラフで簡単に表せるものではありません。

青い点はその多次元問題の出力を示しており、緑の線が効率的フロンティアを表しています。

大規模なモデルでは、データにアクセスする方法にさまざまな構成があります。

ネットワーク全体でのデータ圧縮や、GPUがデータにアクセスする方法を想像してみてください。

エキスパート（AIモデルで特定のタスクに特化した部分）、パイプライン（処理を段階ごとに分けて連続的に実行する方法）、テンソル（多次元配列のデータ構造で、AIや機械学習の計算で使われる）といった構成が異なるスループットオプション（システムやネットワークが一定時間内に処理できるデータ量であるスループットを最適化するための設定や手法）を生み出し、大規模モデルネットワークからのデータ推論が可能になります。

速度の向上は非常に大きく、それはBluefield DPUのおかげだとされています。

シリコン同士の比較で言えば、紫の線は青の線に相当し、エヌビディアはネットワークを通じたシステム全体での改善を示しています。

推論速度のスケーリング要素がHBMだけであるという考えは完全に誤りのようです。

エヌビディアはネットワーキングの強みを活かして、シリコンを超えてスケールを拡大していることを示しています。

この最適化はすべてのモデルに適用されます。これは、一般的なモデル推論の改善に役立つシステム全体の最適化の好例です。このシステムの洗練さは、競合他社がすぐに追いつけるものではないでしょう。

例えば、アドバンスト・マイクロ・デバイセズ（AMD）がHBMを増設したMI-400（AMDが開発する予定の次世代のGPU）を作ったとしても、ネットワークとDPUによる推論速度の向上には及ばず、TCO（総保有コスト）の面でより高速かつ優れた推論を提供することは難しいでしょう。

次章では、エヌビディアの競合分析を通じて、テクノロジー上の競争優位性について詳細に解説していきます。

※続きは「エヌビディア（NVDA：Nvidia）の魅力・凄さとは？競合他社分析を通じて、同社のテクノロジー上の競争優位性に迫る！」をご覧ください。

その他のエヌビディア（NVDA）に関するレポートに関心がございましたら、是非、こちらのリンクより、エヌビディアのページにアクセスしていただければと思います。

また、私のプロフィール上にて、私をフォローしていただければ、最新のレポートがリリースされる度にリアルタイムでメール経由でお知らせを受け取ることが出来ます。

私の半導体に関するレポートに関心がございましたら、是非、フォローしていただければと思います。

アナリスト紹介：ダグラス・オローリン / CFA

📍半導体＆テクノロジー担当

オローリン氏のその他の半導体関連銘柄のレポートに関心がございましたら、是非、こちらのリンクより、オローリン氏のプロフィールページにアクセスしていただければと思います。

インベストリンゴでは、弊社のアナリストが、高配当関連銘柄からAIや半導体関連のテクノロジー銘柄まで、米国株個別企業に関する動向を日々日本語でアップデートしております。そして、インベストリンゴのレポート上でカバーされている米国、及び、外国企業数は250銘柄以上となっております。米国株式市場に関心のある方は、是非、弊社プラットフォームよりレポートをご覧いただければと思います。

弊社がカバーしている企業・銘柄の一覧ページはこちら