Dataproc

專為 Spark、Hadoop 和開放原始碼分析工具設計的代管平台

執行全代管的 Apache Spark、Hadoop 和 30 多種開放原始碼框架叢集,過程輕鬆且由您全權掌控。除了透過 Lightning Engine 在 Compute Engine 加速執行 Spark 工作外,也能整合 Google Cloud 的開放式 lakehouse。

Apache Spark 是 Apache Software Foundation 的商標。

功能

完善的 Hadoop 生態系統支援

除了 Spark,Dataproc 還提供全代管服務,能執行完整的 Apache Hadoop 堆疊 (MapReduce、HDFS、YARN),以及 Flink、Trino、Hive 和其他 30 多種開放原始碼工具。為順利提供支援,Dataproc 與全代管 Hive Metastore 服務 Dataproc Metastore 整合,簡化傳統 data lake 元件的中繼資料管理作業。您可輕鬆翻新傳統 data lake 工作負載,或使用偏好的引擎建構新的應用程式。

搭載 Lightning Engine 的代管 Spark 服務

現在有了 Lightning Engine** (預先發布版),查詢速度加快 3.6 倍*,您不僅能輕鬆執行要求嚴苛的 Spark 工作負載,還能將 Dataproc 代管叢集的控管權握在手上。執行 Spark SQL 和 DataFrame 作業時,效能也更加優異。您可依需求選擇版本和程式庫,精確設定 Spark 環境。

* 查詢速度是依據 TPC-DS 標準TPC-H 標準估算,無法與已發布的 TPC-DS 標準TPC-H 標準結果比較,因為這些執行作業未完全符合 TPC-DS 標準TPC-H 標準規格的要求。

** 適用於 Dataproc on Compute Engine 進階級。

靈活設定及管理叢集

您可自訂 Dataproc 叢集,搭配使用各種機型 (包括 GPU)、先占 VM、磁碟選項、自動調度資源政策、初始化動作容器/映像檔選用元件。Dataproc 提供工作流程範本等功能,可讓您透過控制台、gcloud、API 或用戶端程式庫,自動調度管理複雜的工作及管理叢集。這個平台還整合了 Cloud Monitoring,為您帶來完善的指標、資訊主頁和警告功能,協助您深入瞭解叢集效能與健康狀態。

可連線至開放式 lakehouse

Dataproc 叢集與 BigLake Metastore 原生整合,可讓您處理以開放格式 (如 Cloud Storage 中的 Apache Iceberg) 儲存的資料。如需處理傳統的 Hive 型中繼資料,則可使用完美整合的代管 Dataproc Metastore 服務。Dataplex Universal Catalog 提供統合式探索、歷程追蹤和治理功能,有助您全盤掌握 lakehouse 資產。另外,您還能將 Dataproc 連至 BigQueryVertex AISpannerPub/SubData Fusion,擴充資料應用程式,打造強大的端對端解決方案。

安全處理開放原始碼資料

採用 Google Cloud 穩固可靠的安全防護機制,可讓您設定 Kerberos、使用 IAM 管理存取權、透過 VPC Service Controls 強制執行網路政策,以及運用 CMEK。您還能借助整合的 Dataplex Universal Catalog 集中管理政策,並使用 BigLake 精細控管存取權。

讓資料工程師和數據資料學家事半功倍

您可使用筆電上熟悉的工具和 IDE (如 Jupyter 和 VS Code IDE),輕鬆連結 Dataproc 叢集。Dataproc 與 Vertex AI Workbench 整合,適合為叢集進行互動式 Spark 開發,並能運用 Vertex AI 建構端對端 AI/機器 pipeline

運作方式

簡化叢集作業,取得精闢的分析結果

常見用途

翻新 data lake 及遷移 Hadoop

翻新 data lake

輕鬆將 on-premises Hadoop 和 Spark 工作負載遷移至雲端。Dataproc 與 Dataproc Metastore 整合,並受 Dataplex Universal Catalog 管理,可讓您使用 Cloud Storage 中的資料,執行 MapReduce、Hive、Pig 與 Spark 工作。

翻新 data lake

輕鬆將 on-premises Hadoop 和 Spark 工作負載遷移至雲端。Dataproc 與 Dataproc Metastore 整合,並受 Dataplex Universal Catalog 管理,可讓您使用 Cloud Storage 中的資料,執行 MapReduce、Hive、Pig 與 Spark 工作。

使用 Spark 和 Hadoop 大規模執行批次 ETL 程序

企業級批次處理

搭配 Compute Engine 上的 Lightning Engine 和 Dataproc 或是可自訂 Dataproc 叢集上的 MapReduce 來提高成效,運用 Spark 有效處理及轉換大量資料集。在受控環境中,將複雜的 ETL pipeline 調整為最佳狀態,提升效能和成本效益。

    企業級批次處理

    搭配 Compute Engine 上的 Lightning Engine 和 Dataproc 或是可自訂 Dataproc 叢集上的 MapReduce 來提高成效,運用 Spark 有效處理及轉換大量資料集。在受控環境中,將複雜的 ETL pipeline 調整為最佳狀態,提升效能和成本效益。

      自行設定數據資料學和機器學習環境

      大規模自訂資料科學

      啟動 Dataproc 專用叢集,並搭配特定版本的 Spark、Jupyter 和所需的機器學習程式庫,以便執行支援多人協作的大規模模型訓練和進階數據分析作業。還能與 Vertex AI 整合,實現機器學習運作。


      大規模自訂資料科學

      啟動 Dataproc 專用叢集,並搭配特定版本的 Spark、Jupyter 和所需的機器學習程式庫,以便執行支援多人協作的大規模模型訓練和進階數據分析作業。還能與 Vertex AI 整合,實現機器學習運作。


      執行各種開放原始碼分析引擎

      靈活彈性的 OSS

      您可以部署專用叢集,並搭配 Trino 來實現互動式 SQL、搭配 Flink 來執行進階串流處理,或搭配使用 Spark 和 Hadoop 等其他專用開放原始碼引擎,一切都由 Dataproc 負責代管。

      靈活彈性的 OSS

      您可以部署專用叢集,並搭配 Trino 來實現互動式 SQL、搭配 Flink 來執行進階串流處理,或搭配使用 Spark 和 Hadoop 等其他專用開放原始碼引擎,一切都由 Dataproc 負責代管。

      定價

      Dataproc 代管叢集定價Dataproc 採用即付即用計價模式,提供自動調度資源功能和先占 VM,因此能實現最佳成本效益。如果選擇 Compute Engine 進階級,可運用 Lightning Engine 加快 Spark 工作。

      重要元件:

      • Compute Engine 執行個體 (vCPU、記憶體)
      • Dataproc 服務費 (每個 vCPU 時數)
      • 永久磁碟


      範例:

      如果叢集有 6 個節點 (1 個主要節點和 5 個 worker),每個節點有 4 個 CPU,則執行叢集 2 小時所需的費用為 $0.48 美元。Dataproc 費用 = vCPU 數量 * 小時數 * Dataproc 定價 = 24 * 2 * $0.01 美元 = $0.48 美元

      Dataproc 代管叢集定價

      Dataproc 採用即付即用計價模式,提供自動調度資源功能和先占 VM,因此能實現最佳成本效益。如果選擇 Compute Engine 進階級,可運用 Lightning Engine 加快 Spark 工作。

      重要元件:

      • Compute Engine 執行個體 (vCPU、記憶體)
      • Dataproc 服務費 (每個 vCPU 時數)
      • 永久磁碟


      範例:

      如果叢集有 6 個節點 (1 個主要節點和 5 個 worker),每個節點有 4 個 CPU,則執行叢集 2 小時所需的費用為 $0.48 美元。Dataproc 費用 = vCPU 數量 * 小時數 * Dataproc 定價 = 24 * 2 * $0.01 美元 = $0.48 美元

      Pricing Calculator

      估算每個月的 Dataproc 費用,包括區域專屬定價和相關費用。

      客製化報價

      貴機構如需索取客製化的報價,請與我們的銷售團隊聯絡。

      立即開始使用

      新客戶可享 $300 美元的免費抵免額

      要進行大型專案嗎?

      使用 Google Cloud 控制台建立 Dataproc 叢集

      搭配 Apache Spark 使用 Cloud Storage 連接器

      Architecture Center 根據各種遷移主題和情境,提供實用的內容資源

      Dataproc