Google Cloud Dataproc kann im Vergleich zu anderen cloudbasierten Hadoop- und Spark-Alternativen eine Kostenersparnis von 18–60 % erzielen. ESG-Bericht herunterladen
Führen Sie vollständig verwaltete Apache Spark-, Hadoop- und mehr als 30 Open-Source-Framework-Cluster mit Leichtigkeit und Kontrolle aus. Beschleunigen Sie Spark in der Compute Engine mit der Lightning Engine und integrieren Sie es in das offene Lakehouse von Google Cloud.
Apache Spark ist eine Marke der Apache Software Foundation.
Features
Neben Spark bietet Dataproc vollständig verwaltete Dienste für den gesamten Apache Hadoop-Stack (MapReduce, HDFS, YARN) sowie Flink, Trino, Hive und mehr als 30 weitere Open-Source-Tools. Dataproc ist mit Dataproc Metastore, einem vollständig verwalteten Hive Metastore-Dienst, integriert, um die Metadatenverwaltung für die traditionellen Data-Lake-Komponenten zu vereinfachen. Sie können traditionelle Data-Lake-Arbeitslasten modernisieren oder neue Anwendungen mit Ihren bevorzugten Engines erstellen.
Führen Sie anspruchsvolle Spark-Arbeitslasten mit der Steuerung eines verwalteten Dataproc-Clusters aus, der jetzt mit der Lightning Engine** in der Vorabversion mit 3,6-facher* Abfragegeschwindigkeit ausgestattet ist. Erzielen Sie erhebliche Leistungssteigerungen bei Spark SQL- und DataFrame-Vorgängen. Konfigurieren Sie Spark-Umgebungen genau nach Ihren Anforderungen, indem Sie Versionen und Bibliotheken auswählen.
*Die Abfragen sind vom TPC-DS-Standard und TPC-H-Standard abgeleitet und daher nicht mit veröffentlichten TPC-DS-Standard- und TPC-H-Standard-Ergebnissen vergleichbar, da diese Ausführungen nicht allen Anforderungen der TPC-DS-Standard- und TPC-H-Standard-Spezifikation entsprechen.
**Verfügbar für Dataproc auf der Premium-Stufe der Compute Engine.
Dataproc-Cluster lassen sich mit einer Vielzahl von Maschinentypen (einschließlich GPUs), VMs auf Abruf, Speicheroptionen, Autoskalierungsrichtlinien, Initialisierungsaktionen, Containern/Images und optionalen Komponenten anpassen. Nutzen Sie Funktionen wie Workflow-Vorlagen für die Koordination komplexer Jobs und verwalten Sie Cluster über die Console, gcloud, die API oder Clientbibliotheken. Durch die Einbindung in Cloud Monitoring erhalten Sie detaillierte Informationen zur Clusterleistung und zum Clusterzustand, einschließlich umfassender Messwerte, Dashboards und Benachrichtigungsfunktionen.
Dataproc-Cluster lassen sich nativ in BigLake Metastore einbinden, sodass Sie Daten verarbeiten können, die in offenen Formaten wie Apache Iceberg in Cloud Storage gespeichert sind. Für herkömmliche Hive-basierte Metadatenanforderungen gibt es eine nahtlose Einbindung in den verwalteten Dataproc Metastore-Dienst. Nutzen Sie den Dataplex Universal Catalog für die einheitliche Ermittlung, Herkunftsverfolgung und Governance Ihrer Lakehouse-Assets. Erweitern Sie Ihre Datenanwendungen, indem Sie Dataproc mit BigQuery, Vertex AI, Spanner, Pub/Sub und Data Fusion verbinden und leistungsstarke End-to-End-Lösungen erstellen.
Profitieren Sie von der robusten Sicherheit von Google Cloud. Konfigurieren Sie Kerberos, verwalten Sie den Zugriff mit IAM, erzwingen Sie Netzwerkrichtlinien mit VPC Service Controls und verwenden Sie CMEK. Integration mit dem Dataplex Universal Catalog für die zentrale Richtlinienverwaltung und detaillierte Zugriffssteuerung mit BigLake.
Sie können vertraute Tools und IDEs wie Jupyter und VS Code IDEs auf Ihren Laptops verwenden, um Dataproc-Cluster zu verbinden. Dataproc mit der Vertex AI Workbench für die interaktive Spark-Entwicklung in Clustern integrieren und End-to-End-AI/ML-Pipelines mit Vertex AI erstellen.
Gängige Einsatzmöglichkeiten
Data Lake modernisieren
Lokale Hadoop- und Spark-Arbeitslasten lassen sich ganz einfach in die Cloud migrieren. Mit Dataproc können Sie MapReduce-, Hive-, Pig- und Spark-Jobs für Daten in Cloud Storage ausführen, die in den Dataproc Metastore eingebunden und vom Dataplex Universal Catalog verwaltet werden.
Data Lake modernisieren
Lokale Hadoop- und Spark-Arbeitslasten lassen sich ganz einfach in die Cloud migrieren. Mit Dataproc können Sie MapReduce-, Hive-, Pig- und Spark-Jobs für Daten in Cloud Storage ausführen, die in den Dataproc Metastore eingebunden und vom Dataplex Universal Catalog verwaltet werden.
Batchverarbeitung für Unternehmen
Verarbeiten und transformieren Sie riesige Datenmengen effizient mit Spark, beschleunigt durch die Lightning Engine mit Dataproc in der Compute Engine, oder in MapReduce in anpassbaren Dataproc-Clustern. Komplexe ETL-Pipelines in einer kontrollierten Umgebung hinsichtlich Leistung und Kosten optimieren
Batchverarbeitung für Unternehmen
Verarbeiten und transformieren Sie riesige Datenmengen effizient mit Spark, beschleunigt durch die Lightning Engine mit Dataproc in der Compute Engine, oder in MapReduce in anpassbaren Dataproc-Clustern. Komplexe ETL-Pipelines in einer kontrollierten Umgebung hinsichtlich Leistung und Kosten optimieren
Maßgeschneiderte Data Science im großen Maßstab
Erstellen Sie maßgeschneiderte Dataproc-Cluster mit bestimmten Versionen von Spark, Jupyter und den erforderlichen ML-Bibliotheken für das Training von Modellen im Team, in großem Maßstab und mit erweiterten Analysen. Integration in Vertex AI für MLOps.
Maßgeschneiderte Data Science im großen Maßstab
Erstellen Sie maßgeschneiderte Dataproc-Cluster mit bestimmten Versionen von Spark, Jupyter und den erforderlichen ML-Bibliotheken für das Training von Modellen im Team, in großem Maßstab und mit erweiterten Analysen. Integration in Vertex AI für MLOps.
Flexibler OSS
Erstellen Sie dedizierte Cluster mit Trino für interaktive SQL-Abfragen, Flink für erweiterte Streamverarbeitung oder nutzen Sie andere spezialisierte Open-Source-Engines neben Spark und Hadoop, die alle von Dataproc verwaltet werden.
Flexibler OSS
Erstellen Sie dedizierte Cluster mit Trino für interaktive SQL-Abfragen, Flink für erweiterte Streamverarbeitung oder nutzen Sie andere spezialisierte Open-Source-Engines neben Spark und Hadoop, die alle von Dataproc verwaltet werden.
Preise
Dataproc-Preise für verwaltete Cluster | Dataproc bietet Pay-as-you-go-Preise. Kosten mit Autoscaling und VMs auf Abruf optimieren. Compute Engine Premium-Stufe ermöglicht schnelleres Spark mit Lightning Engine. |
---|---|
Schlüsselkomponenten: |
|
Beispiel: | Ein Cluster mit 6 Knoten (1 Haupt-+ 5 Worker) von 4 CPUs, die jeweils 2 Stunden lang ausgeführt wurden, würde 0,48 $ kosten. Dataproc-Gebühren = Anzahl der vCPUs * Stunden * Dataproc-Preis = 24 * 2 * 0,01 $ = = 0,48 $ |
Dataproc-Preise für verwaltete Cluster
Dataproc bietet Pay-as-you-go-Preise. Kosten mit Autoscaling und VMs auf Abruf optimieren. Compute Engine Premium-Stufe ermöglicht schnelleres Spark mit Lightning Engine.
Schlüsselkomponenten:
Beispiel:
Ein Cluster mit 6 Knoten (1 Haupt-+ 5 Worker) von 4 CPUs, die jeweils 2 Stunden lang ausgeführt wurden, würde 0,48 $ kosten. Dataproc-Gebühren = Anzahl der vCPUs * Stunden * Dataproc-Preis = 24 * 2 * 0,01 $ = = 0,48 $