【テクノロジー:Part 2】スノーフレーク(SNOW)の強み:Apache NiFiを活用して高いセキュリティと拡張性を提供!
コンヴェクィティ- 本編は、注目の米国テクノロジー企業であるスノーフレーク(SNOW)のテクノロジー上の競争優位性を分析した長編レポートとなり、4つの章で構成されています。
- 本稿Part 2では、「スノーフレークの強み」を分析する上で、同社とApache NiFiの関係性に関して詳しく解説していきます。
- スノーフレークは、NiFiを活用して多様なデータ形式や生成AIに対応する柔軟なデータパイプラインを構築し、高いセキュリティと拡張性を提供しています。
- DatavoloとNiFiの技術統合により、大容量データやマルチモーダルデータの処理が可能となり、スノーフレークはKafkaやAirflowなどの競合製品との差別化を進めています。
- NiFiの成長と商業戦略の強化により、スノーフレークは市場価値をさらに向上させる可能性があり、特に生成AI分野での優位性が注目されています。
※「【テクノロジー:Part 1】スノーフレーク(SNOW)DatavoloとNight Shift Development買収が将来性に与える影響とは?」の続き
前章では、同社の足元の主要な買収先であるDatavoloとNight Shift Developmentとの統合が同社の将来性に与え得る影響に関して詳しく解説しております。
加えて、本稿では、スノーフレークのテクノロジーに関する専門用語が多く使用されますが、同社のテクノロジーに関しては、下記の3部作から成る長編レポート、並びに、過去のレポートにて詳細に解説しております。
本稿の内容への理解をより深めるために、是非、インベストリンゴのプラットフォーム上にて、前章も併せてご覧ください。
スノーフレーク(SNOW)とApache NiFiの関係とは?
Apache NiFiは、さまざまな種類のデータを継続的かつ自動的に取り込み、変換し、配信するためのストリーミングプラットフォームです。サイバーセキュリティやシステムの可観測性、イベントストリーム、生成AIのデータパイプラインといった分野でのワークフローを効率化し、自動化する役割を果たします。
このプラットフォームは、米国国家安全保障局(NSA)が内部で8年間にわたって開発し、その後オープンソースとして公開されました。元々、NSA内で膨大なデータフローを効率的に管理するために設計されており、高いスループット、可視性、カスタマイズ性、そしてセキュリティを実現しています。NSAは極めて多様なデータソースを扱い、最高水準のセキュリティとガバナンスが求められる環境で運用されており、その特異な役割についてはゼロデイレポートでも触れられています。
NiFiは、以下のような幅広いデータストリームを扱うことができます:
・音声や動画ファイル
・センサーから取得される生データ
・JSONやXMLのような複雑で階層的な構造を持つデータ
・テキストベースのログデータ
・高度に構造化されたデータベースの行やレコード
NiFiの主な用途として、次のような事例があります:
・柔軟性の高いデータパイプラインの構築
・多様なユーザーによるセルフサービスでの簡単なパイプライン変更の実現
・データ全体を通じた完全な追跡性(チェーンオブカストディ)の維持
NiFiは、政府機関発のプロジェクトとしては珍しく、オープンソースコミュニティで大きな注目を集めています。この点は非常に注目に値します。ただし、指標上は成功を収めているものの、SparkやeBPF、KafkaのようなトップレベルのOSSプロジェクトほどの広がり(いわゆる「ランウェイ」ステータス)には達していません。それでも、もしNiFiがそのレベルに到達すれば、スノーフレーク(SNOW)の評価額(バリュエーション)はさらに大きく跳ね上がることでしょう。
(出所:star-history.com)
詳細に分析すると、NiFiは10,000以上のGitHubスターを獲得し、トップクラスのOSSプロジェクトと肩を並べる可能性を秘めています。しかし、その実現には、より優れた実行力、商業化に向けた明確な戦略、そして知名度のさらなる向上が不可欠です。NiFiの本質的な価値は、特に生成AI(GenAI)に特化した現代的なデータパイプラインにおける重要な課題を解決する能力にあります。
(出所:Datavolo)
もしスノーフレーク(SNOW)がNiFiやDatavoloの成長を後押しし、その勢いを加速させることができれば、Kafkaやコンフルエント(CFLT)といった競合からの圧力を大幅に軽減しながら、大きな成功を収める可能性があります。
NiFiは、データパイプラインの移動、変換、編成を視覚的に操作できるグラフィカルインターフェースを提供し、Airflow(Astronomer)やKafka(コンフルエント:CFLT)などのツールとは一線を画しています。Airflowは複雑なバッチ処理ワークフローの管理に優れ、Kafkaはログ形式で保存される小規模なトランザクションデータのストリーミング処理を得意としています。それに対してNiFiは、多様な形式のデータに対応する柔軟性を持ち、バッチ処理と継続的なストリーミング処理のどちらにも対応可能です。また、データの解析、分割、埋め込み生成、ベクターデータベースやAIシステムへの配信などをネイティブに実現するプロセッサを備えています。
Apache Airflowは、バッチ処理ワークフローの編成に特化し、開発者が高度にカスタマイズされたデータパイプラインを構築できる点で強みを持っています。一方、NiFiは構造化データ、非構造化データ、半構造化データなど、幅広い形式のマルチモーダルデータをスムーズに管理できる点で優れています。さらに、大量データの処理やAI埋め込みの生成といった高度な機能も備えており、現代のデータ処理における課題を解決するためのツールとして特に適しています。
一方、Kafkaは高スループット、信頼性、スケーラビリティに特化した分散型ストリーミングプラットフォームです。しかし、大きなデータオブジェクトの処理が不得意であるため、複雑なマルチモーダルデータのストリーム処理には制約があります。これに対して、Datavoloが開発したNiFiは、こうした制約を克服することを目的に一から設計されており、小規模なログデータから数ギガバイト、さらには数テラバイトに及ぶ大容量データまで柔軟に処理することが可能です。
NiFiの中心的な仕組みである「FlowFile」は、データの出所、処理手順、送信先を定義するものです。この仕組みは、構造化された設計と高い柔軟性を兼ね備えており、ユーザーがコンポーネントをドラッグ&ドロップしたり、パラメータを調整したりすることで、DevOps、A/Bテスト、実験的な試行において迅速に反復作業を行うことを可能にします。また、FlowFileはデータの所有権やアクセス権を管理し、データフロー全体の追跡(チェーンオブカストディ)を維持することで、テクノロジースタック全体のタスク編成を支援します。
さらに、NiFiではカスタムコネクタやプロセッサを作成することができるほか、サードパーティツールとの統合も可能です。たとえば、Databricksからデータを取り込み、スノーフレークで処理し、その後Kafkaに送信してパブリッシュ&サブスクライブの用途に活用する、といった複雑なデータフローも簡単に構築・管理できます。
これを読んで、「これほど強力で将来性のある製品なのに、なぜNiFiはまだ目覚ましい成功を収めていないのだろう?」と思うかもしれません。しかし、実際にはある程度成功を収めています。例えば、ClouderaではNiFi関連の収益が1億ドル以上に達しており、これは同社の収益の重要な柱となっています。ClouderaがKKRによって非公開化された当時、年間経常収益(ARR)が約8億ドルだったことを考えると、その規模は相当なものです。
以下に、DatavoloがまとめたNiFiの主な特徴を紹介します。
・Datavoloは、視覚的で使いやすいローコードの環境を提供し、AIエコシステムとの統合機能を数百種類も標準搭載しています。これには、データソースやターゲット、埋め込みモデル、LLM(大規模言語モデル)、ベクターデータベースなどが含まれます。このUIは単なるデータフローデザイナーにとどまらず、コードをデプロイすることなく、実際に稼働するデータパイプラインを構築・可視化する役割も果たします。この仕組みは「UI-as-infrastructure」とも表現でき、Datavoloパイプラインの宣言的な特性から、「JenkinsがAirflowに対する関係と同様に、KubernetesがDatavoloに対する関係を持つ」という比喩も成り立ちます。
・Datavoloはビッグデータ処理を基本設計の段階から考慮しており、テラバイト規模のファイルから毎秒数百万件のレコードまで、あらゆる種類のマルチモーダルデータを処理できます。単一ノード内でのスレッド並列処理や、複数ノードによる水平スケーリング機能を標準で搭載しており、処理負荷に応じて計算ノードを自動的にプロビジョニングします。
・Datavoloは、スケーラブルでフォールトトレラントなエンタープライズ向けストリーミングシステムです。データの取り込みはイベント駆動型で行われ、データフロー内で自動的に処理されます。開発中の実験的なデータフローも、迅速に本番環境に展開でき、ペタバイト規模のデータ処理にすぐにスケールアップすることが可能です。
・外部のデータソース、ターゲット、APIと統合するプロセッサに関しては、DatavoloがAPIの変更や新バージョンに自動的に対応します。プロセッサ自体もバージョン管理されており、後方互換性を維持したまま運用できます。
・Datavoloでは、パイプラインをインタラクティブにリアルタイムで更新したり、過去のデータをリプレイしたりすることが簡単に行えます。Jupyter Notebookのユーザーにとっては、NiFiのように即座に変更を適用し、結果を確認できる点が親しみやすく、魅力的に感じられるでしょう。また、カスタムプロセッサを使用することで、高い拡張性とモジュール性を実現しています。
・さらに、Datavoloは堅牢なプロビナンスシステムを基盤に組み込んだ、安全性とコンプライアンスに優れたインフラを提供します。セキュリティ、監査、データ追跡といった機能は後付けではなく、NiFiの設計思想そのものに深く根付いています
次章では、スノーフレークと「ELTからETLへの流れ」と「高度なRAG(検索拡張生成)」との関係性に関して詳しく解説していきます。
※続きは「【テクノロジー:Part 3】スノーフレーク(SNOW)では何ができるのか?ELTからETLへの流れと高度なRAG(検索拡張生成)との関係性に迫る!」をご覧ください。
また、その他のスノーフレーク(SNOW)に関するレポートに関心がございましたら、是非、こちらのリンクより、スノーフレークのページにてご覧いただければと思います。
また、弊社のプロフィール上にて、弊社をフォローしていただくと、最新のレポートがリリースされる度にリアルタイムでメール経由でお知らせを受け取ることが出来ます。
弊社のテクノロジー関連銘柄に関するレポートに関心がございましたら、最新のレポートを見逃さないために、是非、フォローしていただければと思います。
アナリスト紹介:コンヴェクィティ
📍テクノロジー担当
コンヴェクィティのその他のテクノロジー関連銘柄のレポートに関心がございましたら、是非、こちらのリンクより、コンヴェクィティのプロフィールページにアクセスしていただければと思います。