BigQuery 中的 AI 與機器學習簡介

BigQuery ML 可讓您使用 GoogleSQL 查詢建立及執行機器學習 (ML) 模型。BigQuery ML 模型會儲存在 BigQuery 資料集中,類似於資料表和檢視。BigQuery ML 也能讓您存取 Vertex AI 模型Cloud AI API,執行文字產生或機器翻譯等人工智慧 (AI) 任務。Gemini for Google Cloud 也提供 AI 輔助功能,協助您處理 BigQuery 工作。如要查看 BigQuery 中的 AI 輔助功能清單,請參閱 Gemini in BigQuery 總覽

一般來說,要對大型資料集執行機器學習或 AI 技術,需要進行大量程式設計,並具備機器學習框架的知識。因此每間公司只有少數人員能開發解決方案。這些人還不包含資料分析師,因為分析師雖然瞭解資料,但機器學習和程式設計專業知識有限。不過有了 BigQuery ML 後,SQL 從業人員就能運用現有的 SQL 工具和技能來建構及評估模型,並以 LLM 和 Cloud AI API 生成結果。

您可以透過以下管道使用 BigQuery ML 功能:

使用 BigQuery ML 的好處

相較於其他將機器學習或 AI 與雲端式資料倉儲搭配使用的做法,BigQuery ML 能為您帶來多項好處:

  • 透過 BigQuery ML,資料分析人員可以使用現有的商業智慧工具與試算表來建立及執行模型,讓所有人員都能使用機器學習和 AI 技術。預測分析可以提供資訊,做為整個機構的業務決策依據。
  • 您不必使用 Python 或 Java 編寫機器學習或 AI 解決方案。您可以使用資料分析師熟悉的 SQL 語言訓練模型及存取 AI 資源。
  • BigQuery ML 可讓您不必從資料倉儲移出資料,藉此加快模型開發和創新速度。相反地,BigQuery ML 會將機器學習技術導入資料中,帶來以下優點:

    • 因為需要的工具較少,因此降低了複雜度。
    • 加快產品開發速度,因為您不需要針對 Python 機器學習框架,遷移大量資料並設定資料格式,就能在 BigQuery 訓練模型。

    如需更多資訊,請觀看影片「如何運用 BigQuery ML 加快機器學習開發速度」。

只要使用 CREATE MODEL 陳述式和推論函式中的預設設定,即使您沒有太多機器學習知識,也能建立及使用 BigQuery ML 模型。不過,如果您具備機器學習開發生命週期的基本知識,例如特徵工程和模型訓練,就能將資料和模型最佳化,進而獲得更優異的結果。建議您參考下列資源,熟悉機器學習技術和程序:

生成式 AI 和預先訓練模型

您可以使用 BigQuery ML 功能執行各種生成式 AI 工作。

支援的模型

BigQuery ML 中的模型會呈現 ML 系統自訓練資料學習到的內容。以下各節說明 BigQuery ML 支援的模型類型。如要進一步瞭解如何為不同類型的模型建立保留項目指派作業,請參閱「將運算單元指派給 BigQuery ML 工作負載」。

內部訓練的模型

BigQuery ML 內建下列模型:

  • 貢獻分析可用於判斷一或多個維度對特定指標值的影響。例如查看商店位置和銷售日期對商店收益的影響。詳情請參閱貢獻分析總覽
  • 線性迴歸:使用在相似的遠端資料上訓練的模型,預測新資料的數值指標值。標籤為實際的值,也就是說,標籤不能是正無限、負無限或 NaN (Not a Number)。
  • 邏輯迴歸可用於分類兩個或更多可能的值,例如輸入值是 low-valuemedium-value 還是 high-value。標籤最多可有 50 個不重複值。
  • K-means 叢集可用於資料區隔。例如,這個模型會找出客戶區隔。K-means 是一種非監督式學習技術,讓模型訓練無須藉助標籤或拆分資料即可執行訓練或評估。
  • 矩陣分解可用於建立產品推薦系統。您可以利用過往的客戶行為、交易和產品評分,建立產品推薦內容,然後運用這些推薦內容提供個人化客戶體驗。
  • 主成分分析 (PCA) 是指計算主成分,並使用這些成分對資料進行基礎變更的過程。這項技術通常用於降低維度,方法是將每個資料點投射到前幾個主成分,以便取得較低維度的資料,同時盡可能保留資料變化。
  • 時間序列是用於執行時間序列預測。您可以使用這項功能建立數百萬個時間序列模型,並用於預測。ARIMA_PLUSARIMA_PLUS_XREG 時間序列模型提供多種調整選項,並自動處理異常、季節性和假日。

    如果您不想自行管理時間序列預測模型,可以使用 AI.FORECAST 函式搭配 BigQuery ML 內建的 TimesFM 時間序列模型 (預先發布版) 執行預測。

您可以針對內部訓練的模型,對 CREATE MODEL 陳述式執行模擬運作,藉此預估執行模型時會處理多少資料。

外部訓練的模型

下列模型是 BigQuery ML 的外部模型,並在 Vertex AI 中訓練:

  • 深層類神經網路 (DNN) 可用於建立以 TensorFlow 為基礎的深層類神經網路,用於分類和迴歸模型。
  • Wide & Deep 適用於一般大規模迴歸和分類問題,這些問題的輸入資料稀疏 (類別特徵含有大量可能的特徵值),例如推薦系統、搜尋和排名問題。
  • Autoencoder 可用於建立以 TensorFlow 為基礎的模型,並支援稀疏資料表示法。您可以使用 BigQuery ML 中的模型執行無監督異常偵測和非線性降維等工作。
  • 增強型樹狀模型可用於建立以 XGBoost 為基礎的分類和迴歸模型。
  • 隨機森林可用於在訓練期間,為分類、迴歸和其他工作建立多種學習方法決策樹。
  • AutoML 是一種監督式機器學習服務,可在表格資料上以高速度和大規模建構及部署分類和迴歸模型。

您無法針對外部訓練的模型的 CREATE MODEL 陳述式執行模擬運作,以便估算執行這些模型時會處理多少資料。

遠端模型

您可以在 BigQuery 中建立遠端模型,使用部署至 Vertex AI 的模型。您必須在遠端模型的 CREATE MODEL 陳述式中,指定模型的 HTTPS 端點,藉此參照該模型。

遠端模型的 CREATE MODEL 陳述式不會處理任何位元組,因此不會產生 BigQuery 費用。

匯入的模型

BigQuery ML 能讓您匯入在 BigQuery 以外訓練的自訂模型,然後在 BigQuery 內執行預測作業。您可以將以下模型從 Cloud Storage 匯入 BigQuery:

  • Open Neural Network Exchange (ONNX) 是用來表示機器學習模型的開放標準格式。使用 ONNX,您就能在 BigQuery ML 中,透過熱門機器學習架構 (例如 PyTorch 和 scikit-learn) 訓練模型。
  • TensorFlow 是機器學習和人工智慧的免費開放原始碼軟體程式庫。您可以在各種工作中使用 TensorFlow,但它特別著重於深度神經網路的訓練和推論。您可以將先前訓練的 TensorFlow 模型以 BigQuery ML 模型的形式載入至 BigQuery,然後在 BigQuery ML 中執行預測。
  • TensorFlow Lite 是 TensorFlow 的輕量版,可部署在行動裝置、微控制器和其他邊緣裝置上。TensorFlow 會對現有的 TensorFlow 模型進行最佳化,以縮減模型大小並加快推論速度。
  • XGBoost 是經過最佳化的分散式梯度提升程式庫,旨在提供高效率、靈活性和可攜性。它會在梯度提升架構下實作機器學習演算法。

匯入模型的 CREATE MODEL 陳述式不會處理任何資料,因此不會產生 BigQuery 費用。

在 BigQuery ML 中,您可以使用模型搭配多個 BigQuery 資料集的資料,來執行訓練和預測。

模型選取指南

這個決策樹會將機器學習模型對應至您要完成的動作。 下載模型選取決策樹。

BigQuery ML 和 Vertex AI

BigQuery ML 與 Vertex AI 整合,後者是 Google Cloud中的 AI 和機器學習端對端平台。您可以將 BigQuery ML 模型註冊至 Model Registry,將這些模型部署至端點以進行線上預測。詳情請參閱下列資源:

BigQuery ML 和 Colab Enterprise

您現在可以使用 Colab Enterprise 筆記本,在 BigQuery 中執行機器學習 (ML) 工作流程。您可以使用 Notebook 搭配 SQL、Python 和其他熱門程式庫和語言,執行機器學習工作。詳情請參閱「建立 Notebook」一文。

支援的地區

BigQuery ML 支援的區域與 BigQuery 相同。詳情請參閱 BigQuery ML 位置

定價

您需要支付用於訓練模型和對模型執行查詢的運算資源費用。您建立的模型類型會影響模型訓練的位置,以及該作業的計費方式。針對模型執行的查詢一律會在 BigQuery 中執行,並使用 BigQuery 運算定價。由於遠端模型會呼叫 Vertex AI 模型,因此對遠端模型的查詢也會產生 Vertex AI 費用。

您必須依據 BigQuery 儲存空間定價支付訓練模型使用的儲存空間費用。

詳情請參閱 BigQuery ML 定價

配額

除了 BigQuery ML 特有的限制之外,使用 BigQuery ML 函式和 CREATE MODEL 陳述式的查詢也受限於 BigQuery 查詢工作的配額和限制。

限制

後續步驟