02/16/2025

【Part 1】中国のAI「DeepSeek(ディープシーク)」とは?何がすごいのか?ChatGPTとの比較を通じて競争優位性に迫る!

A person holding a cell phone in their handコンヴェクィティ  コンヴェクィティ
  • 本稿では、「中国のAI「DeepSeek(ディープシーク)」とは?何がすごいのか?」という疑問に答えるべく、OpenAIが提供するChatGPTとのテクノロジー上の詳細な比較を通じて、DeepSeekの競争優位性と将来性を詳しく解説していきます。
  • DeepSeek(ディープシーク)は、単なる模倣ではなく、真のイノベーターです。そのモデルアーキテクチャ、アルゴリズム、トレーニングおよび推論フレームワークは、すべて業界初のものです。
  • また、DeepSeekは密輸されたH100を使用しておらず、公開情報によると、2048基のH800のみを使用しています。
  • 短期的には引き続きエヌビディア(NVDA)のGPUを使用すると考えられますが、長期的には独自のトレーニングライブラリを構築し、HuaweiのAscend AIチップのようなAI向けASICの開発にも成功する可能性があります。
  • DeepSeekは、GPUの需要をメモリ中心から再び計算中心へとシフトさせています。その優れた並列処理戦略により、より分散化されたトレーニングや、さらに大規模なクラスタの構築が可能になるかもしれません。
  • また、その推論クラスタは、現在すべてのLLM開発者が採用している単一カード/ノードでの推論パラダイムを変革しつつあります。これにより、各ベンダーへの影響は異なる形で現れることになり、この点についてはPart 2で詳しく解説していきます。

DeepSeek(ディープシーク)とは?

DeepSeek(ディープシーク)は、中国・浙江省杭州市に拠点を置く人工知能(AI)企業で、2023年に設立されました。主にオープンソースの大規模言語モデル(LLM)の開発に注力しており、特に最新モデルであるDeepSeek V3は、6710億パラメータを持ち、Mixture-of-Experts(MoE)技術を活用しています。このモデルは、OpenAIのGPT-4oやMetaのLlama 3.1 405Bなどと比較しても高い性能を示しており、特に数学やコーディングタスクにおいて優れた成果を上げています。

DeepSeekは、2025年1月20日にオープンソースとしてDeepSeek R1モデルを公開して以来、予想外の注目を集めています。この反響は非常に大きく、特にその前身であるDeepSeek R1-liteが2024年11月20日に公式サイトで公開されたにもかかわらず、メディアの関心を一切引かなかったことを考えると、なおさら驚くべきことです。

私たちは数カ月にわたり、DeepSeek R1-liteをo1やo1 miniといった競合モデルと比較検証してきましたが、当初、Poe(人気のあるAIベンチマークツール)などのプラットフォームにDeepSeek R1が登場しないことを不思議に思っていました。その理由は単純で、R1は今年1月までオープンソース化されていなかったのです。

このR1のオープンソース化こそが、DeepSeekを一躍脚光を浴びる存在へと押し上げた転機でした。同じ1月20日には、中国のスタートアップであるMoonshot AIがKimi 1.5をリリースしています。Kimi 1.5は特定のタスクにおいてR1を上回ると報じられていますが、同様の注目を集めることはできませんでした。その理由は何でしょうか?

DeepSeekの戦略が大きな要因です。完全な透明性、再現可能なトレーニングパイプライン、さらにアリババ(BABA)のQwenやメタ・プラットフォームズ(META)のLlamaといったモデルの蒸留バージョンを含む多様なエコシステムを提供することで、オープンソースコミュニティの共感を得ることに成功しました。この動きは単なるGPTモデルへの対抗ではなく、最先端の推論能力へのアクセスを民主化し、オープンソースの力を証明するものでもあります。

話題は技術コミュニティ内にとどまりませんでした。オープンソース開発者の間で注目された後、X(旧Twitter)などのプラットフォームでAI専門家の関心を集め、最終的には一般メディアや世間の議論へと波及していきました。しかし、この盛り上がりの裏には、より深い意味があります。DeepSeekの革新的なモデルアーキテクチャ、トレーニングフレームワーク、クロスモデル蒸留技術は、業界における透明性とスケーラビリティの新たな基準を確立する可能性を秘めています。

要するに、DeepSeekのオープンソースに対する姿勢は、単なるPRの成功ではなく、コラボレーションがAIの進化を加速させることを示す証でもあります。コミュニティがR1を再現・改良し、それを基にさらなる発展を遂げていく中で、業界は真のパラダイムシフトを目の当たりにするかもしれません。それは、独占技術によるものではなく、共有された知識によって推進される変革です。

本稿では、弊社が把握しているDeepSeekに関する情報と独自の見解を解説していきます。

AIモデルに関する内容

 DeepSeekの成り立ちと、その背後にあるクオンツヘッジファンド「High Flyer」の概要

 DeepSeekの差別化要因

 DeepSeekとKimiのアルゴリズムにおける革新

 OpenAI、メタ・プラットフォームズ、X.aiの反応

 バイドゥ(BIDU)をAI銘柄として避けるべき理由

 主要な中国AIベンダーとその今後の展望

AIチップに関する内容

 DeepSeekおよび中国のAIベンダーが使用しているチップ

 コストの劇的な低下がもたらす影響と、DeepSeekの実際のコスト

 CUDAの競争優位性(モート)とトレーニングスタック

 推論スタックとその今後の進化

(本稿内の画像は、特に明記されていない限り、DeepSeek V3およびR1の技術レポートから引用しています)

DeepSeek(ディープシーク)とHigh Flyer

High Flyerは2015年に設立されたクオンツトレーディング企業で、中国株市場の非効率性や裁定取引の機会を活用することを目的としています。多くの競合企業がJane Street、Two Sigma、DE Shaw、Citadelといった欧米の大手クオンツファームのノウハウを活用しているのに対し、High Flyerは中国国内で有望な若手人材を積極的に採用する戦略を取ってきました。特に数学、高性能計算、ソフトウェア開発に秀でた若手人材の採用を重視している点が特徴です。

中国のクオンツ業界は2010年代初頭から成長を始めましたが、High Flyerは比較的後発の企業です。そのため、市場での地位を確立するために、マーケティング、優秀な人材の確保、そしてAIを活用した技術革新を積極的に推進する戦略を取りました。

High Flyerは業界の慣習に従うのではなく、独自の手法を実践する企業として知られています。この方針は、創業者である梁文峰(Wenfeng Liang)の影響が大きいです。彼は2002年に浙江大学で人工知能を学びましたが、卒業後すぐに大手企業には就職せず、成都で借りた小さなアパートで独自のプロジェクトに取り組みました。興味深いことに、彼の友人の一人が深圳の郊外にある小さなドローン企業への参加を誘いました。その企業こそが、後に世界的なドローンメーカーとなるDJI(Da-Jiang Innovations)でした。

High FlyerのAIとクオンツ運用

2017年から2018年にかけて、ファンド業界ではAIや機械学習(ML)の役割について議論が交わされました。先駆者たちは機械学習がアルファ(超過収益)を生み出す可能性があると主張しましたが、Bridgewater AssociatesのRay Dalio氏のような懐疑派は「ブラックボックス」の性質を理由に、その説明可能性が大きな課題であると指摘しました。しかし、High Flyerはこれを意に介さず、AIを活用した投資戦略を積極的に推し進めました。

欧米のクオンツ企業が主にアルファを生み出すマーケットニュートラル戦略に集中していたのに対し、High Flyerはその枠を超える道を模索しました。アルファは有限であり、資本が拡大するにつれて市場の非効率性が解消されるため、1000億ドル規模のファンドが10億ドル規模のファンドと同じアルファを生み出すことは極めて困難です。これに対し、High FlyerのAI駆動型アプローチは、個別銘柄のアルファの枠を超え、マクロトレンドや流動性を考慮した実行戦略にまで拡張されている可能性があります。その結果、規模の拡大とともに効率性が損なわれるのではなく、むしろ蓄積されるような投資戦略を展開していると考えられます。

さらに、中国株市場は規模が大きく、特に弱気相場では取引量が極端に変動するという特徴があります。そのため、アルファ戦略における運用資産(AUM)には厳しい制約がありました。業界の推計によると、アルファ戦略に特化したファンドでは100億元(約10億ドル)が上限とされ、これを超える規模への成長は難しいとされています。しかし、High Flyerはスマートベータ戦略へと転換しました。これは、ブラックロックやバンガードが採用しているようなルールベースのベータ戦略に近いものであり、AUMの規模制限にとらわれずに成長できる利点があります。この戦略は、中国の投資家がリスク管理の高度な技術よりも高リターンを重視する傾向があることを踏まえたものです。

High FlyerのAIとマーケティング戦略

High FlyerはAIを単なる投資ツールとしてではなく、マーケティングの武器としても活用しています。テクノロジーを駆使する革新的な企業としてのブランドを確立し、AIを活用したストーリーを打ち出すことで、多くの投資家を引きつけました。その結果、スマートベータ戦略にもかかわらず、通常より高い手数料を受け入れる投資家が増えました。中には、スマートベータ戦略でありながら20%もの成功報酬(パフォーマンスフィー)を課すファンドも存在します。

差別化をさらに強化するために、High Flyerはエヌビディア(NVDA)のGPUを活用した高性能AIデータセンターに数百万ドル規模の投資を行いました。マーケティング資料では、このコンピューティングインフラを大々的にアピールし、高い手数料を正当化する要因として位置付けています。この戦略は、技術的優位性を重視する中国の投資家の関心を引きつけるのに大きく貢献しました。

High Flyerは、マーケティング資料やプレゼンテーションにおいて、自社の計算能力や高性能データセンターを主要なセールスポイントとして強調し、それを高額な手数料の正当化に活用しています。

(出所:High Flyerのデータに基づき弊社作成)

実際のところ、High Flyerは中国および海外の他のクオンツファームと同様の手法を用いています。Renaissance Technologiesのような秘密のアルゴリズムがあるわけではなく、より積極的な戦略を採用し、リターンとリスクの両方を拡大している点が特徴的なクオンツファームにすぎません。

積極的なマーケティングと、銀行への高額なコミッション(しばしば1%以上)を活用したことで、High Flyerは他の俊敏でリスクを取るプレイヤーと共に、1000億元のAUM(運用資産総額)を誇る企業の仲間入りを果たしました。しかし、2021年第4四半期に中国株市場が長期的な弱気相場に突入すると、その勢いは一変しました。High Flyerの超過リターンは急速に低下し、ある戦略では+35%のリターンがわずか+10%まで落ち込む結果となりました。

2024年上半期には、中国のスマートベータ戦略全体が株式市場の下落によって大きなドローダウンを経験しました。

各ファンドのリターン(2024年上半期)

  • 九坤500(JiuKun 500): -13.67%
  • 灵均500(LingJun 500): -12.64%
  • 幻方500(Huan Fang 500、High Flyerの中国名): -8.96%
  • 因诺500(Inno 500): -10%以上の損失
  • 茅原500(MaoYuan 500): -10%以上の損失
  • 衍复500(YanFu 500)、卓识500(ZhuoShi 500)、承启500(ChengQi 500)、睿天500(RuiTian 500): マイナスリターン

市場のパフォーマンス(2024年上半期)

  • CSI 300指数: -0.25%
  • 深セン成分指数: -7.1%
  • 創業板指数(ChiNext): -10.99%
  • 北京50指数: -34.52%
  • CSI 500指数: -8.96%
  • CSI 1000指数: -16.84%

しかし、2024年第4四半期の強気相場のおかげで、High Flyerのスマートベータ戦略は年間を通じてプラスのリターンを記録しました。一方で、アルファ戦略やヘッジ戦略は大きな損失を被りました。そのため、High Flyerは他のクオンツファンドと同様にヘッジ戦略から撤退することを発表しました。これは、中国株市場における規制の変更により、ヘッジがより困難でリスクの高いものになったためです。(High Flyerの中国名は幻方(Huan Fang)です。)

High Flyerのアルファ・ヘッジ戦略ファンドは2024年に平均-5%のドローダウン(下落)を記録し、2020年第4四半期の運用開始以来、平均的なリターンは-1%から+1%のブレークイーブンとなっています。一方、CSI 500をベースとしたスマートベータ戦略は、2024年に平均15%のリターンを記録し、2020年第4四半期以降で30%、2017年第3四半期以降で150%、2017年第4四半期以降で220%の累積リターンを達成しています。

このように、High Flyerはスマートベータ戦略を通じてAUMを拡大し、莫大な利益を上げてきました。欧米のETF運用会社とは異なり、High Flyerは2%という非常に高額な運用手数料を取るだけでなく、20%以上の成功報酬(キャリー)も課すことが可能でした。また、同社は1万基以上のエヌビディア(NVDA)製GPU(主にA100)に3億ドル以上を投資しましたが、その多くは実際には有効活用されておらず、マーケティング資料でアピールするために使われているにすぎません。なぜなら、High Flyerの中核戦略は依然として人間が設計したロジックと一部の効率的な機械学習(ML)に基づいており、数千基のGPUを必要とするものではないためです。

米国が中国へのAI向け半導体輸出を制裁する前に、High Flyerはすでに十分なGPUを確保していました。2023年以前に1万基以上のGPUを保有していた中国の非ハイパースケーラー企業は、High Flyerと商湯科技(Sensetime)の2社だけでした。一方、Moonshotや智譜AI(Zhipu)といったスタートアップは、アリババ(BABA)、テンセント(Tencent)、バイドゥ(BIDU)、バイトダンス(ByteDance)といったハイパースケーラーのクラウドGPUに依存せざるを得ませんでした。特に、アリババはMoonshot AIに8億ドルを投資し、その大部分がGPUのレンタル費用として計上されています。

したがって、High Flyerがこれらの遊休状態のGPUを活用し、LLM(大規模言語モデル)のトレーニングや研究に利用するのは、当然の流れとも言えます。これは、創業者の志とも密接に関係しています。High Flyerや多くのクオンツ企業の創業者は、元々テクノロジーに情熱を持つ技術者であり、単にお金を稼ぐ手段としてテクノロジーを活用しているわけではありません。

High Flyerは、ディープラーニング(DL)を直接投資に応用する面では期待されたほどの成果を上げられていません。そのため、余剰のGPUを活用してAI研究の最前線を押し広げ、より高度なLLMやDLモデルを開発することは合理的な戦略と言えます。将来的にこれらの技術が発展すれば、最終的にはHigh Flyerの投資リターン向上にもつながる可能性があります。

DeepSeek(ディープシーク)の差別化要因

2023年第1四半期、High Flyerは意外にもLLM(大規模言語モデル)の分野に参入しました。その際、フランス・ヌーヴェルヴァーグの映画監督フランソワ・トリュフォーが若手監督に贈った言葉を引用しました。「狂ったように野心的であり、同時に狂ったように誠実でなければならない。」

High Flyerは、投資家に対して特筆すべきリスク調整後リターンを提供しているとは言えません。しかし、AIやLLMの分野における技術革新を推進する上では、非常に大きな優位性を持っていると考えられます。

DeepSeek(ディープシーク)の市場投入のスピードとGPUの備蓄

High Flyerは、LLMのトレーニングに必要な計算能力を備えています。2023年初頭、OpenAIの成功が世界を驚かせた際、大規模なAIトレーニングクラスタを持ち、LLMの学習が可能だった企業はごくわずかでした。その中で、High Flyerとメタ・プラットフォームズはすでに4096基のA100 GPUを備えたトレーニングクラスタを運用していました。

実際、メタ・プラットフォームズはこの完全接続型4096基のA100データセンターと、数年にわたるディープラーニング研究を活用し、GPT-3の主要開発者の3分の2を採用してOPT(Open Pretrained Transformer)を開発しました。これにより、ChatGPTのローンチからわずか3カ月後の2023年2月にはLlama 1のトレーニングと公開に成功しました。この迅速な市場投入こそが、メタ・プラットフォームズが現在のAI分野で確固たる地位を築く要因の一つとなっています。

バイドゥ、テンセント、ByteDanceもGPUを備えていましたが、データセンターやアルゴリズムチームの準備が整っておらず、結果的にパフォーマンスの低いLLMしか開発できませんでした。一方、アリババはQwenモデルの開発に必要なGPUを十分に確保しており、その性能はLlamaに近い水準にあります。また、アリババのクラウドGPU供給を受けるMoonshot AIも、モデル開発で有望な成果を示しています。

DeepSeek(ディープシーク)の高性能ソフトウェア開発における優れた人材

High Flyerは、他のクオンツファームと同様に、数学、物理学、コンピュータサイエンス、工学などの分野からトップクラスの人材を惹きつけています。その中には、国際数学オリンピック(IMO)のメダリストや博士号取得者、専門分野のエキスパートが含まれています。

このような人材は、極めて効率的なコードを書く能力に長けており、クオンツ業界では数ミリ秒単位の実行速度が競争優位性を左右するため、極めて重要な要素となります。彼らは複雑なコーディングの課題を解決し、CPU以外の環境、例えばSDスイッチやGPU、ASIC向けのソフトウェア開発にも優れたスキルを持っています。

DeepSeek(ディープシーク)の集中力、機動力、そして資本

DeepSeekは、OKR(目標と成果指標)やKPIといった従来の評価基準に依存せず、自発的に研究に取り組む人材が自由にコミュニケーションを取り、協力し合える環境を重視しています。

他の成功したAIラボと同様に、DeepSeekはフラットでスリムな組織構造を持ち、迅速な開発や反復的な改良を可能にしています。また、大規模なGPUリソースを活用した実験を柔軟に実施できることも強みです。

さらに、DeepSeekは他のAI研究機関とは異なり、外部資本を調達する必要がありません。これは、High Flyerの先行投資と、共有インフラやバックオフィス機能の活用によるものです。また、High Flyerがこれまでに市場分析やAIを活用した株式運用のために膨大なデータを収集してきた経験も、DeepSeekにとって貴重な競争優位性となっています。

DeepSeek(ディープシーク)のアルゴリズムの革新

十分なデータ、計算能力、パラメータ数を確保することで、DeepSeekは高品質なモデルの構築に成功しました。これらの必要な要素を活用することで、DeepSeekは以下を実現しています。

  • 効率的なLLMモデルの開発
  • トレーニング時の計算資源の最適化によるインフラ活用の向上

DeepSeek V3のトレーニング概要 

  • H800 GPUの総使用時間: 279万時間(うち、事前学習に264万時間、ポストトレーニングに10万時間)
  • 使用トークン数: 14.8兆トークン
  • パラメータ数: 6710億パラメータ(うち、370億がアクティブパラメータ)
  • Mixture of Experts(MoE)の活用: 常時1つの共有エキスパートを使用し、推論時には256のルーティングエキスパートのうち8つを有効化
  • トレーニングコスト: 約600万ドル(GPUの稼働時間のみで、GPU自体の設備投資費用は含まず)
  • ポストトレーニングの内容: SFT(教師ありファインチューニング)、RLHF(人間のフィードバックを用いた強化学習)、知識蒸留

Llama 3 405Bとの比較

  • DeepSeekは、効率的なトレーニングと高度なMoEアーキテクチャを駆使し、高いパフォーマンスを発揮するモデルを構築。
  • DeepSeek V3のパラメータ数はLlama 3 405Bよりも多い
  • トレーニングに使用されたトークン数はほぼ同等(Llama 3は15兆トークン)だが、DeepSeek V3はより高品質かつ多様なデータを使用
  • トレーニング時間はLlama 3 405BのH100 GPU 3000万時間よりも短い
  • MoE(Mixture of Experts)の積極的な活用により、モデルのトレーニングと推論を最適化

DeepSeek(ディープシーク)のV3の革新

本稿では、投資家にとって有益な情報に焦点を当てるため、技術的な詳細には深く踏み込みません。ただし、全体的に見て、DeepSeekはLLM(大規模言語モデル)のトレーニングおよび推論における主要なすべてのレイヤーで、極めて画期的な革新を遂げています。

まず、DeepSeekはGPT-4oやLlama 3と同等のモデルであるDeepSeek V3を基盤モデルとしてトレーニングしました。その後、強化学習(RLHF)を思考の連鎖(Chain of Thoughts, CoT)に適用しました。

DeepSeekのV3基盤モデルでは、従来にない全く新しい手法を用いることで、計算効率を飛躍的に向上させています。主な技術革新として、以下のような点が挙げられます。

モデルアーキテクチャの革新

  • Super Sparse MoE(Mixture of Experts):37B/671Bのアクティブパラメータ、8+1/256のエキスパート構成
  • Multi-Head Latent Attention(MLA):従来のMHA(Multi-Head Attention)に対し、5%〜13%の性能向上
  • Multi-Token Prediction(複数トークンの同時予測)

計算最適化

  • FP8混合精度トレーニング:フロンティアモデルに導入され、スループットを30%以上向上

通信・ネットワーク最適化

  • Dualpipeアルゴリズム:GPU内部の計算コアレベルでアイドル時間を削減
  • All-to-All通信+最大4GPUホップ:トレーニング時のGPU間帯域幅の要件を低減

メモリ最適化

  • Recompute RMSNorm(トレーニングを安定させる正規化手法)とサンプリング手法の活用
  • MLA(Multi-Level Activation)を用いることで、メモリ消費を5.76倍削減しながら計算効率を向上
  • EMA(指数移動平均)の重みをCPUメモリに保存し、非同期で更新することで、GPUメモリを開放

トレーニングインフラフレームワーク

  • HAI-LLMおよびAIトレーニングプラットフォーム(HAI-Platform)を独自開発(HAIは「High-Flyer AI」の略)
  • これにより、研究者は頻繁に発生するバグのチェックや修正を手作業で行う必要がなくなる
  • ソフトウェアとハードウェアを最適化したインフラ「Fire-Flyer AI-HPC」を採用し、高い計算利用率で複数のGPUにトレーニングを分散可能

以上の技術革新により、DeepSeekはLLMのトレーニングと推論の効率を大幅に向上させることに成功しています。

MLA(Multi-Head Latent Attention)は、DeepSeek V2で初めて導入された新しいアーキテクチャです。MetaのLlamaが採用するGQA(Grouped Query Attention)ほどの注目は集めませんでしたが、メモリと計算資源の最適化において、より積極的なアプローチを採用しています。

モデルをトレーニングまたは推論する際、重み(weights)やキー・バリュー(KV)ペア(チャットの会話履歴など)はGPUメモリに保存されます。しかし、GPUメモリには限りがあるため、研究者たちはKVペアのサイズを削減し、より長い会話を可能にする手法を模索してきました。これは、思考の連鎖(Chain of Thoughts, CoT)を活用する推論モデルにとって非常に重要です。

Llamaが採用するGQAでは、1つのKVペアを2つのクエリで共有できますが、DeepSeekのMLAはさらに踏み込んだ手法を採用しています。MLAでは、複数のKVペアを圧縮し、単一の潜在KV(latent KV)として保存し、それをプロジェクション(再投影)することでクエリに対応します。

このアプローチに対して、多くの研究者は当初懐疑的でした。しかし、もし成功すれば、メモリの制約を大幅に軽減し、計算負荷を削減できるため、効率が桁違いに向上する可能性があります。

さらに詳しい解説として、MLA、MoE(Mixture of Experts)、MTP(Multi-Token Prediction)がどのように機能し、どれほど革新的であるかを説明した記事があります。

(出所:Epoch AI

How has DeepSeek improved the Transformer architecture?

Multi-Token Prediction(MTP)は、DeepSeekが生み出したもう一つの革新的な技術です。通常、トレーニングや推論時には次のトークンを1つずつ予測しますが、DeepSeekのMTPでは次の2つのトークンを同時に予測することで、計算効率を実質的に2倍に向上させています。

この技術の鍵となる洞察は、多くのトークンが互いに関連しており、次のトークンだけでなく、もう1つ先のトークンも高精度で予測できるという点です。実際、DeepSeekのMTPでは、この2トークン先予測の精度が約85〜90%に達しています。

(出所:DeepSeek)

しかし、DeepSeekが達成した最も重要なアーキテクチャ上のブレークスルーは、MoE(Mixture of Experts)を新たな領域へと押し上げたことです。MoEは、スパース(疎)モデルアーキテクチャの一種で、従来の密(デンス)モデルのようにネットワーク全体を使用するのではなく、一部の重みだけを活性化することで計算効率を最適化します。これにより、モデルを大規模化しながらも、推論時の計算コストを抑えることが可能になります。

DeepSeekは、このMoE技術を活用し、1つのクエリごとに全パラメータのわずか5.5%のみを使用することで、他のモデルよりも大幅に効率的な計算を実現しています。他の多くのモデルでは、より多くの重みを活性化させており、DeepSeekの手法は際立っています。なお、この領域で唯一競合するのがGPT-4で、一般的に27%とされる活性化率よりもやや低い水準を維持しています。ただし、興味深いことに、SNOWのArcticモデルは、この計算効率の面でDeepSeekを上回るとされています。

(出所:Convequity)

MoEアーキテクチャは、入力ごとにモデルパラメータの一部のみを活性化することで、計算効率を向上させる可能性があると、以前から認識されてきました。この選択的な活性化により、モデルの規模を拡大しつつ、計算コストを比例して増加させることなく運用できます。

しかし、LlamaやQwenなどのオープンソースモデルでは、MoEの採用は限定的でした。その主な理由は、MoEのトレーニングや推論のプロセスが複雑であることにあります。

従来の密モデル(デンスモデル)であるLlamaやQwenは、実装や理解が比較的容易であるため、オープンソースコミュニティにとってアクセスしやすいという利点があります。一方、MoEモデルは、専門化されたエキスパートの適切なトレーニングと負荷分散を確実に行うために、高度なトレーニング技術が必要となるため、採用が進みにくいのが現状です。

MoE(Mixture of Experts)モデルをスケールさせる上での大きな課題は、エキスパート(専門家)の効果的な分配と専門化です。従来の密(デンス)モデルでは、すべてのパラメータが入力ごとに使用されるため、タスクに無関係なパラメータも計算に含まれ、非効率的になりがちです。MoEアーキテクチャは、この問題を解決するために関連性の高いエキスパートのみを活性化することで、計算負荷を軽減します。

DeepSeekは、この分野で大きな進歩を遂げました。エキスパートの専門化と負荷分散の最適化のために、独自の技術を開発し、以下のような革新的な手法を導入しています。

  • 補助損失(Auxiliary Loss)を不要とする負荷分散
  • 共有エキスパートの活用

これにより、256のエキスパート全体に知識が均等に分配されるようになっています。さらに、DeepSeekは各GPUで4つのエキスパートを同時に処理することで、256のエキスパートを並列にトレーニングできる仕組みを構築しました。この戦略により、H800 GPUのような帯域幅の制約を克服しています。

推論時には、わずか8+1/256のエキスパートのみが活性化されるため、V3モデルは6710億(671B)パラメータのモデルと同等の性能を発揮しながら、370億(37B)パラメータのモデルと同じ計算コストで運用できます。

DeepSeek V3は、他のモデルと比較して最も多くのエキスパートを持ち、かつ最も疎(スパース)な構造を採用しています。その結果、活性化されるパラメータ数とエキスパート数が最も少ないモデルとなっています(SNOWを除く)。この領域で唯一DeepSeek V3に匹敵するのはSNOWのArcticです。Arcticモデルは、128のエキスパートを持ち、DeepSeek V3よりもさらにスパース性が高く、計算効率に優れているとされています。

これらの革新により、MoEモデルの効率が向上するだけでなく、実用化が進み、オープンソースコミュニティでの採用拡大も期待されています。

以下の図からも分かるように、DeepSeek V3は最先端のLLMと同等の性能を持ちながら、競合モデル(例えばGPT-4o)と比較して約10分の1のコストで運用可能です。ただし、このコスト差については議論の余地があります。

OpenAIのAPI価格設定は、DeepSeekと異なるアプローチを取っている可能性があります。DeepSeekの創業者Liang氏によると、API価格はCOGS(売上原価)を下回らないが、わずかにマージンを上乗せしているとしています。仮にこのマージンが50%であるとすると、DeepSeekの価格設定はCOGSの2倍程度となります。

これに対し、OpenAIの利益率は少なくとも75%と推定されるため、実際の原価差は5倍程度にとどまる可能性があります。OpenAIは2022年にGPT-4をトレーニング完了して以来、MoEの専門家数を増やし、モデルのスパース化を進めており、その結果、2023年3月のGPT-4と比べて現在のGPT-4oでは12倍のコスト削減を実現したと考えられます。

(出所:DeepSeek)

DeepSeek(ディープシーク)のR1の革新性

R1はDeepSeekを一躍注目の的にした画期的なモデルですが、その根幹にはV3で導入された数々の最適化や技術革新が組み込まれています。

R1の革新の中心には、Group Relative Policy Optimization(GRPO)アルゴリズムがあります。これはパフォーマンス向上において重要な進歩をもたらした技術です。

OpenAIのo1や最新のo3といったモデルについて、「他社が追いつくのが難しい強固な参入障壁(moat)がある」という誤解がよく見られます。しかし、私たちの見解ではこれは逆であり、GPTシリーズのモデルと比べるとその障壁は実際には浅いものです。o1が初めて発表された際、一部のAI研究者は「表面的には印象的だが、技術的な革新性はそれほど大きくない」と冗談交じりに語っていました。実際、o1の進化は主に強化学習(RL)をCoT(Chain of Thought)推論に適用したことによるものが大きいと言えます。

そして、DeepSeekの創業者であるWenfeng Liang氏は2024年7月に下記の様なコメントを残しています。

「破壊的技術の前では、クローズドソースによる参入障壁は長続きしません。仮にOpenAIがソースコードを非公開にしても、それが他社の追い越しを防ぐことにはなりません。だからこそ、私たちはチームの中に価値を築くことに注力しています。チームのメンバーはこのプロセスを通じて成長し、多くのノウハウを蓄積し、革新的な組織と文化を形成していきます。それこそが私たちの参入障壁なのです。」

「オープンソース化や論文の公開は、何かを失うことにはつながりません。技術者にとって、他者に追随されることはむしろ誇らしい成果です。実際、オープンソース化はビジネス的な行為というよりも、文化的な振る舞いです。知見を共有することは、技術者にとって名誉なことでもあります。このようなことができる企業は、文化的な魅力を持つ企業でもあるのです。」

弊社の以前のレポートでも述べたように、OpenAIのChatGPTにおける核心的な革新技術は、人間のフィードバックを活用した強化学習(RLHF:Reinforcement Learning from Human Feedback)でした。この手法により、GPT-3モデルは大幅に向上し、一般ユーザーにも使いやすいものとなりました。RLHFでは、人間の評価者がモデルの調整に関与することで、より人間の意図に沿った出力が可能になります。こうした人間主導のフィードバックを組み込むことで、GPT-3.5はさまざまな評価やユーザー体験において優れたパフォーマンスを発揮することができたのです。

o1は引き続き強化学習(RL)を活用していますが、今回はモデルの長い問題解決プロセスにおける推論能力を拡張することを目的としています。これは一見すると画期的に思えますが、完全に新しいものではありません。AlphaGoは、自己対戦(self-play)によってパフォーマンスを飛躍的に向上させることができることをすでに示しました。しかし、自己対戦を大規模言語モデル(LLM)に適用する際の課題は、囲碁のように明確なルールと目標があるゲームとは異なり、言語には明確な枠組みがない点にあります。OpenAIの解決策は、数学のように明確なルールと目標がある構造化された問題に対してLLMが推論できるようにするために、RLを適用することでした。これを「CoT(Chain of Thought)におけるRL」と呼んでいます。

重要なのは、CoT自体は新しい技術ではないという点です。この関連研究は2019年からすでに論文として発表されており、LLMの性能向上にも活用されてきました。ChatGPTが初めてリリースされた際、その言語能力は非常に優れていましたが、数学的推論能力は驚くほど低いものでした。この制約は、LLMがトークンを即座に生成し、「考える時間」を持たず、すべてのトークンを同じ重要度で扱っていたことに起因しています。複雑な問題においては、これにより短絡的な結論や、十分な推論を経ていない回答が生まれてしまいます。

この課題を解決するために登場したのが「プロンプトエンジニアリング」です。プロンプトを工夫し、LLMがステップごとに考えるように誘導することで、より慎重な思考を必要とするタスクのパフォーマンスを大幅に向上させることが可能になりました。

GoogleがGeminiを最初にリリースした際には、結果をより洗練されたものに見せるための工夫が施されていました。特に複雑なベンチマークでは、GeminiはCoT@32という手法を用いていました。これは、モデルに段階的に考えさせ、32通りの異なる解答を生成した上で、その中から最良のものを選択するというアプローチです。

「CoTにおけるRL」もこの考え方に近い手法です。ただし、手動でプロンプトを設計するのではなく、LLM自身に一つの質問に対して複数のCoTサンプルを生成させ、それぞれの回答に対して評価を行います。各質問に対してさまざまなCoTサンプルを作成することで、LLMがどのように考えるべきかを導く報酬モデルを構築でき、より適切で正確な回答を生成する能力を向上させることができます。

基本的に、RLHF(人間のフィードバックを用いた強化学習)は「人間の好みに合った回答を生成するようにモデルを訓練する」ことに重点を置いています。一方で、「CoTにおけるRL」は、モデルが人間の問題解決のプロセスにより適した形で推論を行えるようにする、または質問に対して最も適切な推論プロセスを選択できるようにすることを目的としています。

最先端モデルの事前学習には、1億ドル以上、場合によっては10億ドルものコストがかかる可能性がありますが、CoTにおけるRLの学習には、わずか数千ドル(シンプルなバージョンであれば50ドル程度)で済みます。必要なのは、数千のRL SFT(Supervised Fine-Tuning)サンプルだけです。このため、OpenAIが最初にo1を発表した際、CoTにおけるRLのプロセスを公開しなかったのです。もし公開してしまえば、簡単に模倣されることを彼ら自身が理解していたからです。

この事実から、o1には実際には深い参入障壁(moat)がないことが明らかになります。仮にCoTにおけるRLが非常に高コストなプロセスであれば、OpenAIはその手法を公開していたかもしれません。なぜなら、コストが高すぎれば、大半の競合企業はそれを再現できないと確信できるからです。

とはいえ、最近の動向を見ると、CoTやTTT(Tree-of-Thought Training)といった決して新しくない技術に精通している複数の研究機関ですら、ここ数カ月間o1の再現に苦戦しています。これは、OpenAIが何らかの「秘伝の技」(secret sauce)をCoTにおけるRLと組み合わせている可能性を示唆しています。この「秘伝の技」は、おそらくCoTにおけるRLの具体的な応用や、大規模な本番環境への導入に関するものです。なぜなら、多くの研究機関や学術機関は、依然としてCoTにおけるRLを理論的な段階にとどめているからです。

一方で、DeepSeekはCoTにおけるRLを単に理論から実践へ移行させただけでなく、より効率的なRLアルゴリズムであるGRPO(Group Relative Policy Optimization)を開発しました。この手法は、2024年に発表された論文で初めて紹介されたものです。GRPOにより、ベースモデルはわずか数千ステップのRL学習で自己進化を遂げ、最終的にはo1と同等、もしくはそれ以上の性能を達成することが可能になりました。

DeepSeekがV3において大きな変革をもたらしたのと同様に、R1に採用されたGRPOは、従来のRL手法であるPPO(Proximal Policy Optimization)とは一線を画すものです。PPOはOpenAIやAnthropicをはじめ、多くの企業で使用されている標準的なRL技術ですが、RL自体が極めて複雑で高度な技術であり、ごく少数の研究機関しか効果的に活用できていません。PPOは非常に精緻な仕組みを持ち、多くの要素が絡み合っているため、最も重要な点として「なぜ機能するのか」が完全には解明されていない技術でもあります。研究者たちは、特定の操作を特定の方法で行えば機能することを知っていますが、それを最適化するには多大な人的調整と試行錯誤が必要なのです。

この複雑さがあるため、ほとんどのLLMユーザーは自分でモデルをファインチューニングしようとはしないと考えています。カスタムデータセットを使ったファインチューニングは、モデル最適化の一側面に過ぎません。性能を大幅に向上させるには、RLHF(人間のフィードバックを活用した強化学習)が必要となるケースが多いです。しかし、RLHFが適用されたモデルを独自のデータセットでファインチューニングすると、意外なほど低品質な結果が得られることがあり、最適な成果を出すためには、RLHFプロセス自体を再実装する必要が出てくる可能性があります。

(出所:DeepSeek)

GRPOは、PPOが抱えるいくつかの主要な課題を解決します。PPOの最大の課題の一つは、ポリシーモデルと並行してバリューモデル(価値モデル)を学習させる必要があることです。これには膨大なメモリと計算資源を消費します。さらに、PPOでは、LLMの出力の最終トークンに対してリワードモデルがスコアを付ける必要がありますが、このプロセスは制御が難しく、パフォーマンスの不安定さを招く原因にもなります。

GRPOは、バリューモデルを別途用意する必要をなくすことで、この問題を解決しています。代わりに、複数のサンプル出力から得られる平均リワードを学習プロセスの指標とする手法を採用しています。このアプローチにより、GRPOは従来よりもメモリ・計算効率が大幅に向上しています。

一方で、GoogleのGemini Deep Researchは、エージェントベースのアプローチを採用しています。これは、マスターモデルがタスクの計画を作成し、サブタスクの実行を他のモデルに委任するという手法です。革新的ではあるものの、計算コストが非常に高いという課題があります。

また、o1やo3のコストが高騰する要因の一つに、複雑で長大なタスクの処理にMonte Carlo Tree Search(MCTS)を活用している点が挙げられます。OpenAIはMCTSを用いることで、モデルが重要な手順を見落とさないようにしていますが、その分、推論コストが大幅に増大してしまいます。

しかし、DeepSeekは従来のMCTSアプローチを回避しています。GRPOを活用することで探索空間を大幅に削減し、RLプロセス全体をより効率的かつコスト効率の高いものにしています。

詳細な解説については、以下の分析記事をご参照ください。

(出所:BavalpreetSinghh

DeepSeek R1: Understanding GRPO and Multi-Stage Training

MLAやMTPと同様に、GRPOも後から振り返れば非常に理にかなった技術に見えますが、最初に導入された際には広く採用されていませんでした。

概要を説明すると、DeepSeekは最初にGRPOを用いてDeepSeek V1-zeroを訓練しました。驚くべきことに、LLMの思考を誘導するバリューモデルを持たず、シンプルな目標設定とわずか数千ステップの自己学習のみで、R1-zeroは自らCoT(Chain of Thought)推論能力と自己修正機能を獲得しました。しかし、このモデルはSFT(Supervised Fine-Tuning)や人間の好みに基づく調整が施されていなかったため、すぐに実用化できる状態ではありませんでした。

次に、DeepSeekはR1-zeroの推論能力と非推論データを活用し、コールドスタートデータを洗練させました。そして、このデータをV3ベースモデルのファインチューニングに使用しました。その後、複数回のRL(強化学習)イテレーションや自己進化プロセスを経て、高度な推論モデルであるR1が誕生しました。DeepSeekはR1を活用し、QwenやLlamaといったオープンソースのLLMの性能向上にも貢献しました。

(出所:DeepSeek)

最終的に、R1はo1と非常に近い性能を発揮しながらも、はるかに低コストで運用可能なモデルとなりました。さらに驚くべきことに、R1の蒸留技術を用いることで、QwenやLlamaも非常に優れたパフォーマンスを発揮し、オープンソースコミュニティ全体を大きく盛り上げました。

(出所:DeepSeek)

しかし、最も注目すべきはそのコストです。DeepSeek V3とR1は、中国および米国の競合モデルを大きく引き離すコスト効率を実現しました。o1と比較すると、約28倍のコスト削減を達成しています。さらに、仮にOpenAIがo1の推論で75%の粗利益率を確保しており、DeepSeekがそれを原価(COGS)の2倍の価格で提供していると仮定すると、純粋なコスト(COGS)の差は約14倍になります。

また、これはDeepSeekがトレーニングコスト、クラスタ規模、アルゴリズム効率といったさまざまな指標で競合よりも約10倍から12倍の優位性を持っていることとも一致しています。

(出所:DeepSeek)

本編は以上となります。Part 2では、推論クラスタが現在すべてのLLM開発者に採用されている単一カード/ノードでの推論パラダイムをどのように変革しつつあるのか、そしてそれが各ベンダーに与える影響について詳しく解説していきますのでお見逃しなく!


弊社はテクノロジー銘柄に関するレポートを毎週複数執筆しており、弊社のプロフィール上にてフォローをしていただくと、最新のレポートがリリースされる度にリアルタイムでメール経由でお知らせを受け取ることができます。

加えて、その他のアナリストも詳細な分析レポートを日々執筆しており、インベストリンゴのプラットフォーム上では「毎月約100件、年間で1000件以上」のレポートを提供しております。

弊社のテクノロジー銘柄に関する最新レポートを見逃さないために、是非、フォローしていただければと思います!


アナリスト紹介:コンヴェクィティ

📍テクノロジー担当

コンヴェクィティのその他のテクノロジー銘柄のレポートに関心がございましたら、こちらのリンクより、コンヴェクィティのプロフィールページにてご覧いただければと思います。


インベストリンゴでは、弊社のアナリストが「高配当銘柄」から「AIや半導体関連のテクノロジー銘柄」まで、米国株個別企業に関する分析を日々日本語でアップデートしております。さらに、インベストリンゴのレポート上でカバーされている米国、及び、外国企業数は「250銘柄以上」(対象銘柄リストはこちら)となっております。米国株式市場に関心のある方は、是非、弊社プラットフォームより詳細な分析レポートをご覧いただければと思います。