使用 BigQuery JupyterLab 外掛程式
如要針對這項功能提供意見回饋或尋求支援,請傳送電子郵件至 bigquery-ide-plugin@google.com。
本文件說明如何安裝及使用 BigQuery JupyterLab 外掛程式,以便執行下列操作:
- 探索 BigQuery 資料。
- 使用 BigQuery DataFrames API。
- 將 BigQuery DataFrames 筆記本部署至 Cloud Composer。
BigQuery JupyterLab 外掛程式包含 Dataproc JupyterLab 外掛程式的所有功能,例如建立 Dataproc Serverless 執行階段範本、啟動及管理筆記本、使用 Apache Spark 進行開發、部署程式碼,以及管理資源。
安裝 BigQuery JupyterLab 外掛程式
如要安裝及使用 BigQuery JupyterLab 外掛程式,請按照下列步驟操作:
在本機終端機中,確認系統已安裝 Python 3.8 以上版本:
python3 --version
在本機終端機中初始化 gcloud CLI:
gcloud init
安裝 Python 虛擬環境工具 Pipenv:
pip3 install pipenv
建立新的虛擬環境:
pipenv shell
在新虛擬環境中安裝 JupyterLab:
pipenv install jupyterlab
安裝 BigQuery JupyterLab 外掛程式:
pipenv install bigquery-jupyter-plugin
如果您安裝的 JupyterLab 版本低於 4.0.0,請啟用外掛程式擴充功能:
jupyter server extension enable bigquery_jupyter_plugin
啟動 JupyterLab:
jupyter lab
JupyterLab 會在瀏覽器中開啟。
更新專案和區域設定
根據預設,工作階段會在您執行 gcloud init
時設定的專案和地區中執行。如要變更工作階段的專案和區域設定,請按照下列步驟操作:
- 在 JupyterLab 選單中,依序點選「Settings」>「Google BigQuery Settings」。
您必須重新啟動外掛程式,變更才會生效。
探索資料
如要在 JupyterLab 中使用 BigQuery 資料,請按照下列步驟操作:
- 在 JupyterLab 側欄中,開啟「Dataset Explorer」窗格:按一下「Datasets」圖示
。
如要展開專案,請在「Dataset Explorer」窗格中,按一下專案名稱旁的
展開箭頭。「Dataset Explorer」窗格會顯示專案中位於您為工作階段設定的 BigQuery 區域內的所有資料集。您可以透過多種方式與專案和資料集互動:
- 如要查看資料集相關資訊,請按一下資料集名稱。
- 如要顯示資料集中的所有資料表,請按一下資料集旁的 展開箭頭。
- 如要查看資料表的相關資訊,請按一下資料表名稱。
- 如要變更專案或 BigQuery 區域,請更新設定。
執行筆記本
如要透過 JupyterLab 查詢 BigQuery 資料,請按照下列步驟操作:
- 如要開啟啟動器頁面,請依序按一下「File」>「New Launcher」。
- 在「BigQuery Notebooks」部分,按一下「BigQuery DataFrames」資訊卡。系統會開啟新的筆記本,說明如何開始使用 BigQuery DataFrames。
BigQuery DataFrames 筆記本支援在本機 Python 核心中進行 Python 開發作業。BigQuery DataFrames 作業會在 BigQuery 上遠端執行,但其餘程式碼會在本機電腦上執行。在 BigQuery 中執行作業時,程式碼儲存格下方會顯示查詢工作 ID 和工作連結。
- 如要在 Google Cloud 控制台中查看工作,請按一下「Open Job」。
部署 BigQuery DataFrames 筆記本
您可以使用 Dataproc Serverless 執行階段範本,將 BigQuery DataFrames 筆記本部署至 Cloud Composer。您必須使用 2.1 以上版本的執行階段。
- 在 JupyterLab 筆記本中,按一下 calendar_monthJob Scheduler。
- 在「Job name」(工作名稱) 中,輸入工作專屬名稱。
- 在「Environment」中,輸入要部署工作的 Cloud Composer 環境名稱。
- 如果筆記本有參數,請新增參數。
- 輸入無伺服器執行階段範本的名稱。
- 如要處理 Notebook 執行失敗問題,請在「Retry count」部分輸入整數,並在「Retry delay」部分輸入值 (以分鐘為單位)。
選取要傳送哪些執行通知,然後輸入收件者。
系統會使用 Airflow SMTP 設定傳送通知。
選取筆記本的時間表。
按一下 [建立]。
成功排定筆記本後,該筆記本就會顯示在所選 Cloud Composer 環境的已排定工作清單中。
後續步驟
- 試試 BigQuery DataFrames 快速入門。
- 進一步瞭解 BigQuery DataFrames Python API。
- 使用 JupyterLab 執行 Dataproc 的無伺服器批次和筆記本工作階段。