生成式 AI 資訊摘要

本文件說明 BigQuery ML 支援的生成式人工智慧 (AI) 功能。這些功能可讓您使用預先訓練的 Vertex AI 模型和內建的 BigQuery ML 模型,在 BigQuery ML 中執行 AI 工作。

支援的工作包括:

您可以透過在 BigQuery ML 中建立代表 Vertex AI 模型端點的遠端模型,存取 Vertex AI 模型來執行其中一個函式。在您針對要使用的 Vertex AI 模型建立遠端模型後,只要針對遠端模型執行 BigQuery ML 函式,即可存取該模型的功能。

這種做法可讓您在 SQL 查詢中使用這些 Vertex AI 模型的功能,以便分析 BigQuery 資料。

工作流程

您可以使用 Vertex AI 模型和Cloud AI 服務的遠端模型,搭配 BigQuery ML 函式,執行複雜的資料分析和生成式 AI 任務。

下圖顯示您可能會同時使用這些功能的一些常見工作流程:

這張圖表顯示使用 Vertex AI 模型或 Cloud AI 服務的遠端模型常見工作流程。

生成文字

文字產生是一種生成式 AI,可根據提示或資料分析產生文字。您可以使用文字和多模態資料執行文字生成作業。

以下是一些常見的文字產生用途:

  • 生成創意內容。
  • 正在產生程式碼。
  • 產生即時通訊或電子郵件回覆。
  • 腦力激盪,例如建議未來產品或服務的開發方向。
  • 提供個人化內容,例如產品建議。
  • 將一或多個標籤套用至內容,藉此將資料分類。
  • 找出內容中表達的主要情緒。
  • 摘要內容傳達的主要想法或印象。
  • 在文字或視覺資料中識別一或多個重要實體。
  • 將文字或音訊資料的內容翻譯成其他語言。
  • 產生與音訊資料中口頭內容相符的文字。
  • 為視覺資料加上說明文字或進行問答。

產生文字後,下一個常見的步驟就是進行資料強化,藉此將初步分析的洞察與其他資料結合,以便加以強化。舉例來說,您可以分析家具圖片,為 design_type 欄產生文字,讓家具 SKU 具有相關說明,例如 mid-century modernfarmhouse

支援的模型

如要執行生成式 AI 工作,您可以使用 BigQuery ML 中的遠端模型,參照部署至 Vertex AI 或由 Vertex AI 代管的模型。您可以建立下列類型的遠端模型

使用文字產生模型

建立遠端模型後,您可以使用 ML.GENERATE_TEXT 函式與該模型互動:

  • 對於以 Gemini 模型為基礎的遠端模型,您可以執行下列操作:

    • 使用 ML.GENERATE_TEXT 函式,根據您在查詢中指定的提示或從標準資料表的資料欄拉取,產生文字。在查詢中指定提示時,您可以在提示中參照下列類型的資料表欄:

    • 使用 ML.GENERATE_TEXT 函式,搭配您提供做為函式引數的提示,分析物件資料表中的文字、圖片、音訊、影片或 PDF 內容。

  • 對於所有其他類型的遠端模型,您可以使用 ML.GENERATE_TEXT 函式,搭配您在查詢中提供的提示,或從標準資料表的資料欄提供的提示。

接地和安全性屬性

當您使用 Gemini 模型搭配 ML.GENERATE_TEXT 函式時,如果您使用的是標準表格做為輸入內容,可以使用接地安全性屬性。基準可讓 Gemini 模型使用網路上的其他資訊,生成更具體且符合事實的回覆。安全性屬性可讓 Gemini 模型根據您指定的屬性篩選回傳的回應。

監督式調整

建立參照下列任一模型的遠端模型時,您可以選擇同時設定監督式調校

  • gemini-2.0-flash-001
  • gemini-2.0-flash-lite-001
  • gemini-1.5-pro-002
  • gemini-1.5-flash-002

所有推論作業都會在 Vertex AI 中執行。結果會儲存在 BigQuery 中。

請參閱下列主題,瞭解如何在 BigQuery ML 中使用文字生成功能:

產生結構化資料

結構化資料產生功能與文字產生功能非常相似,但您可以指定 SQL 結構定義,進一步設定模型回應的格式。

如要產生結構化資料,請在任何一般可用預先發布的 Gemini 模型上建立遠端模型。接著,您可以使用 AI.GENERATE_TABLE 函式與該模型互動。如要嘗試建立結構化資料,請參閱「使用 AI.GENERATE_TABLE 函式產生結構化資料」一文。

使用 Gemini 模型搭配 AI.GENERATE_TABLE 函式時,您可以指定安全性屬性,藉此篩選模型的回應。

依照資料列產生特定類型的值

您可以搭配 Gemini 模型使用標量生成式 AI 函式,分析 BigQuery 標準資料表中的資料。資料包含文字資料和包含 ObjectRef 值的資料欄中的非結構化資料。針對資料表中的每一列,這些函式會產生包含特定類型的輸出內容。

可用的 AI 函式如下:

生成嵌入項目

嵌入是高維度數值向量,用來表示特定實體,例如文字片段或音訊檔案。產生嵌入資料可讓您擷取資料的語意,以便更輕鬆地推論及比較資料。

嵌入產生的常見用途如下:

  • 使用檢索增強生成 (RAG) 技術,參照可信來源的其他資料,增強模型對使用者查詢的回覆。RAG 可提供更準確的事實資訊和一致的回覆,並且可存取比模型訓練資料更新的資料。
  • 執行多模態搜尋。例如,使用文字輸入內容搜尋圖片。
  • 執行語意搜尋,找出類似項目以提供建議、替換和記錄去重。
  • 建立要與 k-means 模型一起使用的嵌入資料,以便進行分群。

支援的模型

支援的型號如下:

  • 如要建立文字嵌入,您可以使用 Vertex AI text-embeddingtext-multilingual-embedding 模型。
  • 如要建立多模態嵌入,將文字、圖片和影片嵌入相同的語意空間,您可以使用 Vertex AI multimodalembedding 模型。
  • 如要為結構化獨立和相同分布的隨機變數 (IID)資料建立嵌入資料,您可以使用 BigQuery ML 主成分分析 (PCA) 模型或自編碼器模型。
  • 如要為使用者或項目資料建立嵌入資料,您可以使用 BigQuery ML 矩陣因數分解模型。

如果是較小、輕量化的文字嵌入,請嘗試使用預先訓練的 TensorFlow 模型,例如 NNLM、SWIVEL 或 BERT。

使用嵌入生成模型

建立模型後,您可以使用 ML.GENERATE_EMBEDDING 函式與模型互動。ML.GENERATE_EMBEDDING 可處理所有支援模型類型的標準資料表中的結構化資料。針對多模態嵌入模型,ML.GENERATE_EMBEDDING 也支援標準資料表包含 ObjectRef 值的資料欄,或物件資料表中的視覺內容。

對於遠端模型,所有推論都會在 Vertex AI 中進行。對於其他模型類型,所有推論作業都會在 BigQuery 中執行。結果會儲存在 BigQuery 中。

請參閱下列主題,瞭解如何在 BigQuery ML 中使用文字生成功能:

預測

預測是一種技術,可讓您分析歷來時間序列資料,據以預測未來趨勢。您可以使用 BigQuery ML 內建的 TimesFM 時間序列模型 (預先發布版) 執行預測作業,不必自行建立模型。內建的 TimesFM 模型可搭配 AI.FORECAST 函式,根據您的資料產生預測資料。

位置

文字產生和嵌入模型的支援位置會因您使用的模型類型和版本而異。詳情請參閱「位置」。與其他生成式 AI 模型不同,位置支援功能不適用於內建的 TimesFM 時間序列模型。TimesFM 模型適用於所有 BigQuery 支援的地區。

定價

您會針對用於針對模型執行查詢的運算資源付費。遠端模型會呼叫 Vertex AI 模型,因此對遠端模型的查詢也會產生 Vertex AI 費用。

詳情請參閱 BigQuery ML 定價

後續步驟