Ottieni insight sui dati da un modello di analisi di contributo utilizzando una metrica del rapporto sommabile
In questo tutorial utilizzerai un modello di analisi di contributo per analizzare il contributo del rapporto del costo del venduto nel set di dati sulle vendite di alcolici nell'Iowa. Questo tutorial ti guida nell'esecuzione delle seguenti attività:
- Crea una tabella di input basata sui dati sui liquori dell'Iowa disponibili pubblicamente.
- Crea un modello di analisi di contributo che utilizzi una metrica del rapporto sommabile. Questo tipo di modello riassume i valori di due colonne numeriche e determina le differenze di rapporto tra il set di dati di controllo e di test per ogni segmento di dati.
- Ottieni gli approfondimenti sulle metriche dal modello utilizzando la
funzione
ML.GET_INSIGHTS
.
Prima di iniziare questo tutorial, devi conoscere il caso d'uso dell'analisi dei contributi.
Autorizzazioni obbligatorie
Per creare il set di dati, devi disporre dell'autorizzazione
bigquery.datasets.create
Identity and Access Management (IAM).Per creare il modello, devi disporre delle seguenti autorizzazioni:
bigquery.jobs.create
bigquery.models.create
bigquery.models.getData
bigquery.models.updateData
Per eseguire l'inferenza, devi disporre delle seguenti autorizzazioni:
bigquery.models.getData
bigquery.jobs.create
Costi
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
- BigQuery ML: You incur costs for the data that you process in BigQuery.
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il Calcolatore prezzi.
Per ulteriori informazioni sui prezzi di BigQuery, consulta la sezione Prezzi di BigQuery della documentazione di BigQuery.
Prima di iniziare
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Crea un set di dati
Crea un set di dati BigQuery per archiviare il tuo modello ML.
Console
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, fai clic sul nome del progetto.
Fai clic su
Visualizza azioni > Crea set di dati.Nella pagina Crea set di dati:
In ID set di dati, inserisci
bqml_tutorial
.Per Tipo di località, seleziona Più regioni e poi Stati Uniti (più regioni negli Stati Uniti).
Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.
bq
Per creare un nuovo set di dati, utilizza il comando
bq mk
con il flag --location
. Per un elenco completo dei possibili parametri, consulta la documentazione di riferimento del comando bq mk --dataset
.
Crea un set di dati denominato
bqml_tutorial
con la posizione dei dati impostata suUS
e una descrizione diBigQuery ML tutorial dataset
:bq --location=US mk -d \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
Anziché utilizzare il flag
--dataset
, il comando utilizza la scorciatoia-d
. Se ometti-d
e--dataset
, il comando crea per impostazione predefinita un set di dati.Verifica che il set di dati sia stato creato:
bq ls
API
Chiama il metodo datasets.insert
con una risorsa set di dati definita.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
BigQuery DataFrames
Prima di provare questo esempio, segui le istruzioni di configurazione di BigQuery DataFrames riportate nella guida introduttiva di BigQuery che utilizza BigQuery DataFrames. Per ulteriori informazioni, consulta la documentazione di riferimento di BigQuery DataFrames.
Per autenticarti in BigQuery, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, vedi Configurare ADC per un ambiente di sviluppo locale.
Crea una tabella di dati di input
Crea una tabella contenente i dati di test e controllo da analizzare. La seguente query crea due tabelle intermedie, una tabella di test per i dati sul liquore del 2021 e una tabella di controllo con i dati sul liquore del 2020, quindi esegue un'unione delle tabelle intermedie per creare una tabella con righe di test e di controllo e lo stesso insieme di colonne.
Nella console Google Cloud , vai alla pagina BigQuery.
Nell'editor di query, esegui la seguente istruzione:
CREATE OR REPLACE TABLE bqml_tutorial.iowa_liquor_sales_data AS (SELECT store_name, city, vendor_name, category_name, item_description, SUM(sale_dollars) AS total_sales, SUM(state_bottle_cost) AS total_bottle_cost, FALSE AS is_test FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE EXTRACT(YEAR FROM date) = 2020 GROUP BY store_name, city, vendor_name, category_name, item_description, is_test) UNION ALL (SELECT store_name, city, vendor_name, category_name, item_description, SUM(sale_dollars) AS total_sales, SUM(state_bottle_cost) AS total_bottle_cost, TRUE AS is_test FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE EXTRACT(YEAR FROM date) = 2021 GROUP BY store_name, city, vendor_name, category_name, item_description, is_test);
Crea il modello
Crea un modello di analisi dei contributi:
Nella console Google Cloud , vai alla pagina BigQuery.
Nell'editor di query, esegui la seguente istruzione:
CREATE OR REPLACE MODEL bqml_tutorial.liquor_sales_model OPTIONS( model_type = 'CONTRIBUTION_ANALYSIS', contribution_metric = 'sum(total_bottle_cost)/sum(total_sales)', dimension_id_cols = ['store_name', 'city', 'vendor_name', 'category_name', 'item_description'], is_test_col = 'is_test', min_apriori_support = 0.05 ) AS SELECT * FROM bqml_tutorial.iowa_liquor_sales_data;
Il completamento della query richiede circa 35 secondi, dopodiché il modelloliquor_sales_model
viene visualizzato nel set di dati bqml_tutorial
nel riquadro Explorer. Poiché la query utilizza un'istruzione CREATE MODEL
per creare un modello, non ci sono risultati della query.
Ottenere approfondimenti dal modello
Ottieni gli approfondimenti generati dal modello di analisi di contributo utilizzando la funzione
ML.GET_INSIGHTS
.
Nella console Google Cloud , vai alla pagina BigQuery.
Nell'editor di query, esegui la seguente istruzione per selezionare le colonne dall'output per un modello di analisi del contributo delle metriche di rapporto sommabile:
SELECT contributors, metric_test, metric_control, metric_test_over_metric_control, metric_test_over_complement, metric_control_over_complement, aumann_shapley_attribution, apriori_support contribution FROM ML.GET_INSIGHTS( MODEL `bqml_tutorial.liquor_sales_model`) ORDER BY aumann_shapley_attribution DESC;
Le prime righe dell'output dovrebbero essere simili alle seguenti. I valori vengono troncati per migliorare la leggibilità.
di lingua russa. | metric_test | metric_control | metric_test_over_metric_control | metric_test_over_complement | metric_control_over_complement | aumann_shapley_attribution | apriori_support | contributo |
---|---|---|---|---|---|---|---|---|
tutti | 0,069 | 0,071 | 0,969 | null | null | -0,00219 | 1.0 | 0,00219 |
city=DES MOINES | 0,048 | 0,054 | 0,88 | 0,67 | 0,747 | -0,00108 | 0,08 | 0,00108 |
vendor_name=DIAGEO AMERICAS | 0,064 | 0,068 | 0,937 | 0,917 | 0,956 | -0,0009 | 0,184 | 0,0009 |
vendor_name=BACARDI USA INC | 0,071 | 0,082 | 0,857 | 1,025 | 1,167 | -0,00054 | 0,057 | 0,00054 |
vendor_name=PERNOD RICARD USA | 0,068 | 0,077 | 0,89 | 0,988 | 1,082 | -0,0005 | 0,061 | 0,0005 |
Nell'output, puoi vedere che il segmento di dati city=DES MOINES
ha il contributo più elevato
alla variazione del rapporto di vendita. Puoi vedere questa differenza anche nelle colonne metric_test
e metric_control
, che mostrano che il rapporto è diminuito nei dati di test rispetto ai dati di controllo. Altre metriche, come metric_test_over_metric_control
, metric_test_over_complement
e metric_control_over_complement
, calcolano statistiche aggiuntive che descrivono la relazione tra i rapporti di controllo e di test e il loro rapporto con la popolazione complessiva. Per ulteriori informazioni, consulta
Output per i modelli di analisi di contributo delle metriche relative ai rapporti sommabili.
Esegui la pulizia
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.