使用 BigQuery JupyterLab 外掛程式

如要針對這項功能提供意見回饋或尋求支援,請傳送電子郵件至 bigquery-ide-plugin@google.com

本文件說明如何安裝及使用 BigQuery JupyterLab 外掛程式,以便執行下列操作:

  • 探索 BigQuery 資料。
  • 使用 BigQuery DataFrames API。
  • 將 BigQuery DataFrames 筆記本部署至 Cloud Composer

BigQuery JupyterLab 外掛程式包含 Dataproc JupyterLab 外掛程式的所有功能,例如建立 Dataproc Serverless 執行階段範本、啟動及管理筆記本、使用 Apache Spark 進行開發、部署程式碼,以及管理資源。

安裝 BigQuery JupyterLab 外掛程式

如要安裝及使用 BigQuery JupyterLab 外掛程式,請按照下列步驟操作:

  1. 在本機終端機中,確認系統已安裝 Python 3.8 以上版本:

    python3 --version
    
  2. 安裝 gcloud CLI。

  3. 在本機終端機中初始化 gcloud CLI

    gcloud init
    
  4. 安裝 Python 虛擬環境工具 Pipenv:

    pip3 install pipenv
    
  5. 建立新的虛擬環境:

    pipenv shell
    
  6. 在新虛擬環境中安裝 JupyterLab:

    pipenv install jupyterlab
    
  7. 安裝 BigQuery JupyterLab 外掛程式:

    pipenv install bigquery-jupyter-plugin
    
  8. 如果您安裝的 JupyterLab 版本低於 4.0.0,請啟用外掛程式擴充功能:

    jupyter server extension enable bigquery_jupyter_plugin
    
  9. 啟動 JupyterLab:

    jupyter lab
    

    JupyterLab 會在瀏覽器中開啟。

更新專案和區域設定

根據預設,工作階段會在您執行 gcloud init 時設定的專案和地區中執行。如要變更工作階段的專案和區域設定,請按照下列步驟操作:

  • 在 JupyterLab 選單中,依序點選「Settings」>「Google BigQuery Settings」

您必須重新啟動外掛程式,變更才會生效。

探索資料

如要在 JupyterLab 中使用 BigQuery 資料,請按照下列步驟操作:

  1. 在 JupyterLab 側欄中,開啟「Dataset Explorer」窗格:按一下「Datasets」圖示 「Dataset Explorer」圖示。
  2. 如要展開專案,請在「Dataset Explorer」窗格中,按一下專案名稱旁的 展開箭頭。

    「Dataset Explorer」窗格會顯示展開的專案和資料集清單。

    「Dataset Explorer」窗格會顯示專案中位於您為工作階段設定的 BigQuery 區域內的所有資料集。您可以透過多種方式與專案和資料集互動:

    • 如要查看資料集相關資訊,請按一下資料集名稱。
    • 如要顯示資料集中的所有資料表,請按一下資料集旁的 展開箭頭。
    • 如要查看資料表的相關資訊,請按一下資料表名稱。
    • 如要變更專案或 BigQuery 區域,請更新設定

執行筆記本

如要透過 JupyterLab 查詢 BigQuery 資料,請按照下列步驟操作:

  1. 如要開啟啟動器頁面,請依序按一下「File」>「New Launcher」
  2. 在「BigQuery Notebooks」部分,按一下「BigQuery DataFrames」資訊卡。系統會開啟新的筆記本,說明如何開始使用 BigQuery DataFrames。

BigQuery DataFrames 筆記本支援在本機 Python 核心中進行 Python 開發作業。BigQuery DataFrames 作業會在 BigQuery 上遠端執行,但其餘程式碼會在本機電腦上執行。在 BigQuery 中執行作業時,程式碼儲存格下方會顯示查詢工作 ID 和工作連結。

  • 如要在 Google Cloud 控制台中查看工作,請按一下「Open Job」

部署 BigQuery DataFrames 筆記本

您可以使用 Dataproc Serverless 執行階段範本,將 BigQuery DataFrames 筆記本部署至 Cloud Composer。您必須使用 2.1 以上版本的執行階段。

  1. 在 JupyterLab 筆記本中,按一下 calendar_monthJob Scheduler
  2. 在「Job name」(工作名稱) 中,輸入工作專屬名稱。
  3. 在「Environment」中,輸入要部署工作的 Cloud Composer 環境名稱。
  4. 如果筆記本有參數,請新增參數。
  5. 輸入無伺服器執行階段範本的名稱。
  6. 如要處理 Notebook 執行失敗問題,請在「Retry count」部分輸入整數,並在「Retry delay」部分輸入值 (以分鐘為單位)。
  7. 選取要傳送哪些執行通知,然後輸入收件者。

    系統會使用 Airflow SMTP 設定傳送通知。

  8. 選取筆記本的時間表。

  9. 按一下 [建立]。

成功排定筆記本後,該筆記本就會顯示在所選 Cloud Composer 環境的已排定工作清單中。

後續步驟