Cerca gli embedding con la ricerca vettoriale
Questo tutorial mostra come eseguire una
ricerca di somiglianze sugli
embedding archiviati nelle tabelle BigQuery utilizzando la
funzione VECTOR_SEARCH
e, facoltativamente, un indice vettoriale.
Quando utilizzi VECTOR_SEARCH
con un indice vettoriale, VECTOR_SEARCH
utilizza il metodo
Vicino più prossimo approssimativo
per migliorare le prestazioni della ricerca vettoriale, con il compromesso di ridurre
il richiamo
e quindi restituire risultati più approssimativi. Senza un indice di vettori,
VECTOR_SEARCH
utilizza la
ricerca bruta
per misurare la distanza per ogni record.
Autorizzazioni obbligatorie
Per eseguire questo tutorial, devi disporre delle seguenti autorizzazioni IAM (Identity and Access Management):
- Per creare un set di dati, devi disporre dell'autorizzazione
bigquery.datasets.create
. Per creare una tabella, devi disporre delle seguenti autorizzazioni:
bigquery.tables.create
bigquery.tables.updateData
bigquery.jobs.create
Per creare un indice vettoriale, devi disporre dell'autorizzazione
bigquery.tables.createIndex
per la tabella in cui stai creando l'indice.Per eliminare un indice vettoriale, devi disporre dell'autorizzazione
bigquery.tables.deleteIndex
nella tabella in cui stai eliminando l'indice.
Ciascuno dei seguenti ruoli IAM predefiniti include le autorizzazioni necessarie per lavorare con gli indici di vettori:
- BigQuery Data Owner (
roles/bigquery.dataOwner
) - BigQuery Data Editor (
roles/bigquery.dataEditor
)
Costi
La funzione VECTOR_SEARCH
utilizza
i prezzi di BigQuery Compute.
Ti viene addebitato il costo della ricerca di immagini simili utilizzando i prezzi on demand o delle versioni.
- On demand: ti viene addebitato il numero di byte scansionati nella tabella di base, nell'indice e nella query di ricerca.
Prezzi delle versioni: ti vengono addebitati gli slot necessari per completare il job all'interno della versione della prenotazione. I calcoli di somiglianza più grandi e complessi comportano costi maggiori.
Per ulteriori informazioni, consulta la pagina relativa ai prezzi di BigQuery.
Prima di iniziare
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Crea un set di dati
Crea un set di dati BigQuery:
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, fai clic sul nome del progetto.
Fai clic su
Visualizza azioni > Crea set di dati.Nella pagina Crea set di dati:
In ID set di dati, inserisci
vector_search
.Per Tipo di località, seleziona Più regioni e poi Stati Uniti (più regioni negli Stati Uniti).
I set di dati pubblici sono archiviati nella
US
multiregione. Per semplicità, archivia il set di dati nella stessa posizione.Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.
Crea tabelle di test
Crea la tabella
patents
contenente gli embedding dei brevetti, in base a un sottoinsieme del set di dati pubblico di Google Patents:CREATE TABLE vector_search.patents AS SELECT * FROM `patents-public-data.google_patents_research.publications` WHERE ARRAY_LENGTH(embedding_v1) > 0 AND publication_number NOT IN ('KR-20180122872-A') LIMIT 1000000;
Crea la tabella
patents2
contenente un'evidenziazione di brevetti per trovare i vicini più vicini per:CREATE TABLE vector_search.patents2 AS SELECT * FROM `patents-public-data.google_patents_research.publications` WHERE publication_number = 'KR-20180122872-A';
Creare un indice di vettori
Crea l'indice vettoriale
my_index
nella colonnaembeddings_v1
della tabellapatents
:CREATE OR REPLACE VECTOR INDEX my_index ON vector_search.patents(embedding_v1) STORING(publication_number, title) OPTIONS(distance_type='COSINE', index_type='IVF');
Attendi alcuni minuti per la creazione dell'indice vettoriale, quindi esegui la seguente query e verifica che il valore
coverage_percentage
sia100
:SELECT * FROM vector_search.INFORMATION_SCHEMA.VECTOR_INDEXES;
Utilizzare la funzione VECTOR_SEARCH
con un indice
Dopo aver creato e compilato l'indice vettoriale, utilizza la funzione VECTOR_SEARCH
per trovare il vicino più prossimo per l'embedding nella colonna embedding_v1
della tabella patents2
. Questa query utilizza l'indice vettoriale nella ricerca, quindi VECTOR_SEARCH
utilizza un metodo di vicino più prossimo approssimativo per trovare il vicino più prossimo dell'embedding.
Utilizza la funzione VECTOR_SEARCH
con un indice:
SELECT query.publication_number AS query_publication_number, query.title AS query_title, base.publication_number AS base_publication_number, base.title AS base_title, distance FROM VECTOR_SEARCH( TABLE vector_search.patents, 'embedding_v1', TABLE vector_search.patents2, top_k => 5, distance_type => 'COSINE', options => '{"fraction_lists_to_search": 0.005}');
I risultati sono simili ai seguenti:
+--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+ | query_publication_number | query_title | base_publication_number | base_title | distance | +--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+ | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-106599080-B | A kind of rapid generation for keeping away big vast transfer figure based on GIS | 0.14471956347590609 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-114118544-A | Urban waterlogging detection method and device | 0.17472108931171348 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | KR-20200048143-A | Method and system for mornitoring dry stream using unmanned aerial vehicle | 0.17561990745619782 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | KR-101721695-B1 | Urban Climate Impact Assessment method of Reflecting Urban Planning Scenarios and Analysis System using the same | 0.17696129365559843 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-109000731-B | The experimental rig and method that research inlet for stom water chocking-up degree influences water discharged amount | 0.17902723269642917 | +--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+
Utilizzare la funzione VECTOR_SEARCH
con la forza bruta
Utilizza la funzione VECTOR_SEARCH
per trovare il vicino più prossimo per l'embedding nella colonna embedding_v1
della tabella patents2
. Questa query non utilizza l'indice vettoriale nella ricerca, pertanto VECTOR_SEARCH
trova il vicino più prossimo esatto dell'embedding.
SELECT query.publication_number AS query_publication_number, query.title AS query_title, base.publication_number AS base_publication_number, base.title AS base_title, distance FROM VECTOR_SEARCH( TABLE vector_search.patents, 'embedding_v1', TABLE vector_search.patents2, top_k => 5, distance_type => 'COSINE', options => '{"use_brute_force":true}');
I risultati sono simili ai seguenti:
+--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+ | query_publication_number | query_title | base_publication_number | base_title | distance | +--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+ | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-106599080-B | A kind of rapid generation for keeping away big vast transfer figure based on GIS | 0.1447195634759062 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-114118544-A | Urban waterlogging detection method and device | 0.1747210893117136 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | KR-20200048143-A | Method and system for mornitoring dry stream using unmanned aerial vehicle | 0.17561990745619782 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | KR-101721695-B1 | Urban Climate Impact Assessment method of Reflecting Urban Planning Scenarios and Analysis System using the same | 0.17696129365559843 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-109000731-B | The experimental rig and method that research inlet for stom water chocking-up degree influences water discharged amount | 0.17902723269642928 | +--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+
Valutare il richiamo
Quando esegui una ricerca vettoriale con un indice, vengono restituiti risultati approssimativi, con il compromesso della riduzione del ricordo. Puoi calcolare il richiamo confrontando i risultati restituiti dalla ricerca vettoriale con un indice e dalla ricerca vettoriale con la ricerca bruta. In questo set di dati, il valore publication_number
identifica in modo univoco un brevetto, pertanto viene utilizzato per il confronto.
WITH approx_results AS ( SELECT query.publication_number AS query_publication_number, base.publication_number AS base_publication_number FROM VECTOR_SEARCH( TABLE vector_search.patents, 'embedding_v1', TABLE vector_search.patents2, top_k => 5, distance_type => 'COSINE', options => '{"fraction_lists_to_search": 0.005}') ), exact_results AS ( SELECT query.publication_number AS query_publication_number, base.publication_number AS base_publication_number FROM VECTOR_SEARCH( TABLE vector_search.patents, 'embedding_v1', TABLE vector_search.patents2, top_k => 5, distance_type => 'COSINE', options => '{"use_brute_force":true}') ) SELECT a.query_publication_number, SUM(CASE WHEN a.base_publication_number = e.base_publication_number THEN 1 ELSE 0 END) / 5 AS recall FROM exact_results e LEFT JOIN approx_results a ON e.query_publication_number = a.query_publication_number GROUP BY a.query_publication_number
Se il recupero è inferiore a quanto vorresti, puoi aumentare il valore fraction_lists_to_search
, con il rovescio della medaglia costituito da una latenza e un utilizzo delle risorse potenzialmente superiori. Per ottimizzare la ricerca di vettori, puoi provare più esecuzioni di VECTOR_SEARCH
con valori degli argomenti diversi, salvare i risultati in tabelle e poi confrontarli.
Esegui la pulizia
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.