Cloud Data Fusion 總覽

Cloud Data Fusion 是全代管的雲端原生企業級資料整合服務,可讓使用者快速建構及管理資料管道。您可以透過 Cloud Data Fusion 網頁介面,建立可擴充的資料整合解決方案。這項服務可讓您連線至各種資料來源、轉換資料,然後將資料傳輸至各種目的地系統,而無須管理基礎架構。

Cloud Data Fusion 由開放原始碼專案 CDAP 提供支援。

開始使用 Cloud Data Fusion

您可以在幾分鐘內開始探索 Cloud Data Fusion。

探索 Cloud Data Fusion

以下各節將說明 Cloud Data Fusion 的主要元件。

用戶群專案

建構和自動化調度管理 Cloud Data Fusion 管道,以及儲存管道中繼資料的一組服務,會佈建於獨立租用環境內的用戶群專案中。為每個已佈建 Cloud Data Fusion 執行個體的客戶專案,建立獨立的用戶群專案。用戶群專案會繼承客戶專案的所有網路和防火牆設定。

Cloud Data Fusion:主控台

Cloud Data Fusion 主控台 (也稱為控制層) 是一組 API 作業和網頁介面,用於處理 Cloud Data Fusion 執行個體本身,例如建立、刪除、重新啟動及更新。

Cloud Data Fusion:工作室

Cloud Data Fusion Studio (也稱為「資料層」) 是一組 REST API 和網頁介面作業,可用於建立、執行及管理管道和相關構件。

概念

本節將介紹 Cloud Data Fusion 的部分核心概念。

概念 說明
Cloud Data Fusion 執行個體
  • Cloud Data Fusion 執行個體是 Cloud Data Fusion 的獨特部署。如要開始使用 Cloud Data Fusion,請透過 Google Cloud 主控台建立 Cloud Data Fusion 執行個體。
  • 您可以在單一 Google Cloud 控制台專案中建立多個執行個體,並指定要建立 Cloud Data Fusion 執行個體的 Google Cloud 區域。
  • 您可以依據需求和成本限制,建立開發人員、基本或企業執行個體。
  • 每個 Cloud Data Fusion 執行個體中都有專屬、獨立的 Cloud Data Fusion 部署,其中包含一組服務,負責管道生命週期管理、自動化調度管理、協調作業及中繼資料管理。這些服務會使用用戶群專案中的長期執行資源來執行。
命名空間 命名空間是 Cloud Data Fusion 執行個體中應用程式、資料和相關中繼資料的邏輯群組。您可以將命名空間視為例項的分區。在單一例項中,一個命名空間會獨立於其他命名空間,儲存實體的資料和中繼資料。
管道
  • 管道可讓您以視覺方式設計資料,並針對多個內部部署和雲端資料來源,控制其擷取、轉換、結合、匯總並載入資料的流程。
  • 建立管道後,您就能建立複雜的資料處理工作流程,協助解決資料擷取、整合和遷移的問題。您可以使用 Cloud Data Fusion 建構批次和即時管道,具體取決於您的需求。
  • 管道可讓您使用資料的邏輯流程來加速資料處理工作流程,同時 Cloud Data Fusion 會處理在執行環境中實際執行所需的所有功能。
管道節點
  • 在 Cloud Data Fusion 網頁介面的 Studio 頁面上,管道會以有向非循環圖 (DAG) 的一系列節點表示,形成單向的流程。
  • 節點代表您可以透過管道執行的各種動作,例如從來源讀取、執行資料轉換,以及將輸出內容寫入接收器。您可以將來源、轉換、接收器和其他節點連結至 Cloud Data Fusion 網頁介面,即可在其中開發資料管道。
外掛程式
  • 外掛程式為可自訂模組,可用於擴充 Cloud Data Fusion 的功能。
  • Cloud Data Fusion 提供來源、轉換、匯總、接收器、錯誤收集器、快訊發布器、動作和執行後動作的外掛程式。
  • 外掛程式有時也稱為節點,通常是在 Cloud Data Fusion 網頁介面的情況下。
  • 如要探索及使用熱門的 Cloud Data Fusion 外掛程式,請參閱「 Cloud Data Fusion 外掛程式」。
中樞 如要在 Cloud Data Fusion 網頁介面中瀏覽外掛程式、範例管道和其他整合項目,請按一下「Hub」。當外掛程式發布新版本時,在任何相容的執行個體中,Hub 都會顯示該版本。即使是建立於外掛程式發布前,也適用這項規定。
管道預覽
  • 您可以使用 Cloud Data Fusion Studio 針對資料子集使用預覽功能,測試管道設計的準確度。
  • 預先發布版中的管道會在租用戶專案中執行。
管道執行
  • Cloud Data Fusion 會建立暫時的執行環境來執行管道。
  • Cloud Data Fusion 支援 Dataproc 做為執行環境
  • Cloud Data Fusion 會在管道執行的一開始,在您客戶專案中佈建暫時的 Dataproc 叢集,並在該叢集中使用 Spark 執行管道,然後在管道執行完成後刪除該叢集。
  • 或者,如果您在受控環境中管理 Dataproc 叢集 (透過 Terraform 等技術),您也可以將 Cloud Data Fusion 設定為不要佈建叢集。在這些環境中,您可以對現有的 Dataproc 叢集執行管道。
運算設定檔
  • 運算設定檔會指定管道執行的方式和地點。設定檔會封裝管道實際執行環境的設定和刪除作業所需的任何資訊。
  • 舉例來說,運算設定檔包含下列項目:
    • 執行佈建工具
    • 資源 (記憶體和 CPU)
    • 節點數下限和上限
    • 其他值
  • 設定檔會以名稱識別,且必須指派提供者及其相關設定。設定檔可存在於 Cloud Data Fusion 執行個體層級或命名空間層級。
  • Cloud Data Fusion 的預設運算設定檔為「自動調整」。
可重複使用的管道
  • Cloud Data Fusion 的可重複使用資料管道可讓您建立單一管道,將資料整合模式套用至各種用途和資料集。
  • 可重複使用的管道會在執行時設定管道的大部分設定,而非在設計時硬式編碼,因此可提升可管理性。
觸發條件
  • Cloud Data Fusion 支援在資料管道 (稱為「下游管道」) 上建立觸發條件,以便在完成一或多個不同的管道 (稱為「上游管道」) 時執行。您可以選擇執行下游管道的時間,例如在上游管道執行成功、失敗、停止,或以上三種情況的任意組合。
  • 觸發條件在下列情況下相當實用:
    • 清理資料一次,然後提供給多個下游管道使用。
    • 在管道之間共用資訊,例如執行階段引數和外掛程式設定。這就是所謂的「酬載設定」
    • 擁有一組動態管道,可使用小時、日、週或月資料執行,而非使用每次執行時都必須更新的靜態管道。

Cloud Data Fusion 資源

探索 Cloud Data Fusion 資源:

後續步驟