執行全代管的 Apache Spark、Hadoop 和 30 多種開放原始碼框架叢集,過程輕鬆且由您全權掌控。除了透過 Lightning Engine 在 Compute Engine 加速執行 Spark 工作外,也能整合 Google Cloud 的開放式 lakehouse。
Apache Spark 是 Apache Software Foundation 的商標。
功能
除了 Spark,Dataproc 還提供全代管服務,能執行完整的 Apache Hadoop 堆疊 (MapReduce、HDFS、YARN),以及 Flink、Trino、Hive 和其他 30 多種開放原始碼工具。為順利提供支援,Dataproc 與全代管 Hive Metastore 服務 Dataproc Metastore 整合,簡化傳統 data lake 元件的中繼資料管理作業。您可輕鬆翻新傳統 data lake 工作負載,或使用偏好的引擎建構新的應用程式。
現在有了 Lightning Engine** (預先發布版),查詢速度加快 3.6 倍*,您不僅能輕鬆執行要求嚴苛的 Spark 工作負載,還能將 Dataproc 代管叢集的控管權握在手上。執行 Spark SQL 和 DataFrame 作業時,效能也更加優異。您可依需求選擇版本和程式庫,精確設定 Spark 環境。
* 查詢速度是依據 TPC-DS 標準和 TPC-H 標準估算,無法與已發布的 TPC-DS 標準和 TPC-H 標準結果比較,因為這些執行作業未完全符合 TPC-DS 標準和 TPC-H 標準規格的要求。
** 適用於 Dataproc on Compute Engine 進階級。
您可自訂 Dataproc 叢集,搭配使用各種機型 (包括 GPU)、先占 VM、磁碟選項、自動調度資源政策、初始化動作、容器/映像檔和選用元件。Dataproc 提供工作流程範本等功能,可讓您透過控制台、gcloud、API 或用戶端程式庫,自動調度管理複雜的工作及管理叢集。這個平台還整合了 Cloud Monitoring,為您帶來完善的指標、資訊主頁和警告功能,協助您深入瞭解叢集效能與健康狀態。
Dataproc 叢集與 BigLake Metastore 原生整合,可讓您處理以開放格式 (如 Cloud Storage 中的 Apache Iceberg) 儲存的資料。如需處理傳統的 Hive 型中繼資料,則可使用完美整合的代管 Dataproc Metastore 服務。Dataplex Universal Catalog 提供統合式探索、歷程追蹤和治理功能,有助您全盤掌握 lakehouse 資產。另外,您還能將 Dataproc 連至 BigQuery、Vertex AI、Spanner、Pub/Sub 和 Data Fusion,擴充資料應用程式,打造強大的端對端解決方案。
採用 Google Cloud 穩固可靠的安全防護機制,可讓您設定 Kerberos、使用 IAM 管理存取權、透過 VPC Service Controls 強制執行網路政策,以及運用 CMEK。您還能借助整合的 Dataplex Universal Catalog 集中管理政策,並使用 BigLake 精細控管存取權。
您可使用筆電上熟悉的工具和 IDE (如 Jupyter 和 VS Code IDE),輕鬆連結 Dataproc 叢集。Dataproc 與 Vertex AI Workbench 整合,適合為叢集進行互動式 Spark 開發,並能運用 Vertex AI 建構端對端 AI/機器 pipeline。
常見用途
翻新 data lake
輕鬆將 on-premises Hadoop 和 Spark 工作負載遷移至雲端。Dataproc 與 Dataproc Metastore 整合,並受 Dataplex Universal Catalog 管理,可讓您使用 Cloud Storage 中的資料,執行 MapReduce、Hive、Pig 與 Spark 工作。
翻新 data lake
輕鬆將 on-premises Hadoop 和 Spark 工作負載遷移至雲端。Dataproc 與 Dataproc Metastore 整合,並受 Dataplex Universal Catalog 管理,可讓您使用 Cloud Storage 中的資料,執行 MapReduce、Hive、Pig 與 Spark 工作。
大規模自訂資料科學
啟動 Dataproc 專用叢集,並搭配特定版本的 Spark、Jupyter 和所需的機器學習程式庫,以便執行支援多人協作的大規模模型訓練和進階數據分析作業。還能與 Vertex AI 整合,實現機器學習運作。
大規模自訂資料科學
啟動 Dataproc 專用叢集,並搭配特定版本的 Spark、Jupyter 和所需的機器學習程式庫,以便執行支援多人協作的大規模模型訓練和進階數據分析作業。還能與 Vertex AI 整合,實現機器學習運作。
靈活彈性的 OSS
您可以部署專用叢集,並搭配 Trino 來實現互動式 SQL、搭配 Flink 來執行進階串流處理,或搭配使用 Spark 和 Hadoop 等其他專用開放原始碼引擎,一切都由 Dataproc 負責代管。
靈活彈性的 OSS
您可以部署專用叢集,並搭配 Trino 來實現互動式 SQL、搭配 Flink 來執行進階串流處理,或搭配使用 Spark 和 Hadoop 等其他專用開放原始碼引擎,一切都由 Dataproc 負責代管。
定價
Dataproc 代管叢集定價 | Dataproc 採用即付即用計價模式,提供自動調度資源功能和先占 VM,因此能實現最佳成本效益。如果選擇 Compute Engine 進階級,可運用 Lightning Engine 加快 Spark 工作。 |
---|---|
重要元件: |
|
範例: | 如果叢集有 6 個節點 (1 個主要節點和 5 個 worker),每個節點有 4 個 CPU,則執行叢集 2 小時所需的費用為 $0.48 美元。Dataproc 費用 = vCPU 數量 * 小時數 * Dataproc 定價 = 24 * 2 * $0.01 美元 = $0.48 美元 |
Dataproc 代管叢集定價
Dataproc 採用即付即用計價模式,提供自動調度資源功能和先占 VM,因此能實現最佳成本效益。如果選擇 Compute Engine 進階級,可運用 Lightning Engine 加快 Spark 工作。
重要元件:
範例:
如果叢集有 6 個節點 (1 個主要節點和 5 個 worker),每個節點有 4 個 CPU,則執行叢集 2 小時所需的費用為 $0.48 美元。Dataproc 費用 = vCPU 數量 * 小時數 * Dataproc 定價 = 24 * 2 * $0.01 美元 = $0.48 美元