Dataproc

Verwaltete Plattform für Spark, Hadoop und Open-Source-Analysen

Führen Sie vollständig verwaltete Apache Spark-, Hadoop- und mehr als 30 Open-Source-Framework-Cluster mit Leichtigkeit und Kontrolle aus. Beschleunigen Sie Spark in der Compute Engine mit der Lightning Engine und integrieren Sie es in das offene Lakehouse von Google Cloud.

Apache Spark ist eine Marke der Apache Software Foundation.

Features

Robuste Unterstützung der Hadoop-Umgebung

Neben Spark bietet Dataproc vollständig verwaltete Dienste für den gesamten Apache Hadoop-Stack (MapReduce, HDFS, YARN) sowie Flink, Trino, Hive und mehr als 30 weitere Open-Source-Tools. Dataproc ist mit Dataproc Metastore, einem vollständig verwalteten Hive Metastore-Dienst, integriert, um die Metadatenverwaltung für die traditionellen Data-Lake-Komponenten zu vereinfachen. Sie können traditionelle Data-Lake-Arbeitslasten modernisieren oder neue Anwendungen mit Ihren bevorzugten Engines erstellen.

Verwaltetes Spark mit Lightning Engine

Führen Sie anspruchsvolle Spark-Arbeitslasten mit der Steuerung eines verwalteten Dataproc-Clusters aus, der jetzt mit der Lightning Engine** in der Vorabversion mit 3,6-facher* Abfragegeschwindigkeit ausgestattet ist. Erzielen Sie erhebliche Leistungssteigerungen bei Spark SQL- und DataFrame-Vorgängen. Konfigurieren Sie Spark-Umgebungen genau nach Ihren Anforderungen, indem Sie Versionen und Bibliotheken auswählen.

*Die Abfragen sind vom TPC-DS-Standard und TPC-H-Standard abgeleitet und daher nicht mit veröffentlichten TPC-DS-Standard- und TPC-H-Standard-Ergebnissen vergleichbar, da diese Ausführungen nicht allen Anforderungen der TPC-DS-Standard- und TPC-H-Standard-Spezifikation entsprechen.

**Verfügbar für Dataproc auf der Premium-Stufe der Compute Engine.

Flexible Konfiguration und Verwaltung von Clustern

Dataproc-Cluster lassen sich mit einer Vielzahl von Maschinentypen (einschließlich GPUs), VMs auf Abruf, Speicheroptionen, Autoskalierungsrichtlinien, Initialisierungsaktionen, Containern/Images und optionalen Komponenten anpassen. Nutzen Sie Funktionen wie Workflow-Vorlagen für die Koordination komplexer Jobs und verwalten Sie Cluster über die Console, gcloud, die API oder Clientbibliotheken. Durch die Einbindung in Cloud Monitoring erhalten Sie detaillierte Informationen zur Clusterleistung und zum Clusterzustand, einschließlich umfassender Messwerte, Dashboards und Benachrichtigungsfunktionen.

Konnektivität offener Lakehouses

Dataproc-Cluster lassen sich nativ in BigLake Metastore einbinden, sodass Sie Daten verarbeiten können, die in offenen Formaten wie Apache Iceberg in Cloud Storage gespeichert sind. Für herkömmliche Hive-basierte Metadatenanforderungen gibt es eine nahtlose Einbindung in den verwalteten Dataproc Metastore-Dienst. Nutzen Sie den Dataplex Universal Catalog für die einheitliche Ermittlung, Herkunftsverfolgung und Governance Ihrer Lakehouse-Assets. Erweitern Sie Ihre Datenanwendungen, indem Sie Dataproc mit BigQuery, Vertex AI, Spanner, Pub/Sub und Data Fusion verbinden und leistungsstarke End-to-End-Lösungen erstellen.

Open-Source-Datenverarbeitung schützen

Profitieren Sie von der robusten Sicherheit von Google Cloud. Konfigurieren Sie Kerberos, verwalten Sie den Zugriff mit IAM, erzwingen Sie Netzwerkrichtlinien mit VPC Service Controls und verwenden Sie CMEK. Integration mit dem Dataplex Universal Catalog für die zentrale Richtlinienverwaltung und detaillierte Zugriffssteuerung mit BigLake.

Data Engineers und Data Scientists unterstützen

Sie können vertraute Tools und IDEs wie Jupyter und VS Code IDEs auf Ihren Laptops verwenden, um Dataproc-Cluster zu verbinden. Dataproc mit der Vertex AI Workbench für die interaktive Spark-Entwicklung in Clustern integrieren und End-to-End-AI/ML-Pipelines mit Vertex AI erstellen.

Funktionsweise

Vereinfachte Cluster-Vorgänge für leistungsstarke Analysen

Gängige Einsatzmöglichkeiten

Data-Lake-Modernisierung und Hadoop-Migration

Data Lake modernisieren

Lokale Hadoop- und Spark-Arbeitslasten lassen sich ganz einfach in die Cloud migrieren. Mit Dataproc können Sie MapReduce-, Hive-, Pig- und Spark-Jobs für Daten in Cloud Storage ausführen, die in den Dataproc Metastore eingebunden und vom Dataplex Universal Catalog verwaltet werden.

Data Lake modernisieren

Lokale Hadoop- und Spark-Arbeitslasten lassen sich ganz einfach in die Cloud migrieren. Mit Dataproc können Sie MapReduce-, Hive-, Pig- und Spark-Jobs für Daten in Cloud Storage ausführen, die in den Dataproc Metastore eingebunden und vom Dataplex Universal Catalog verwaltet werden.

Batch-ETL im großen Maßstab mit Spark und Hadoop

Batchverarbeitung für Unternehmen

Verarbeiten und transformieren Sie riesige Datenmengen effizient mit Spark, beschleunigt durch die Lightning Engine mit Dataproc in der Compute Engine, oder in MapReduce in anpassbaren Dataproc-Clustern. Komplexe ETL-Pipelines in einer kontrollierten Umgebung hinsichtlich Leistung und Kosten optimieren

    Batchverarbeitung für Unternehmen

    Verarbeiten und transformieren Sie riesige Datenmengen effizient mit Spark, beschleunigt durch die Lightning Engine mit Dataproc in der Compute Engine, oder in MapReduce in anpassbaren Dataproc-Clustern. Komplexe ETL-Pipelines in einer kontrollierten Umgebung hinsichtlich Leistung und Kosten optimieren

      Konfigurierbare Data-Science- und ML-Umgebungen

      Maßgeschneiderte Data Science im großen Maßstab

      Erstellen Sie maßgeschneiderte Dataproc-Cluster mit bestimmten Versionen von Spark, Jupyter und den erforderlichen ML-Bibliotheken für das Training von Modellen im Team, in großem Maßstab und mit erweiterten Analysen. Integration in Vertex AI für MLOps.


      Maßgeschneiderte Data Science im großen Maßstab

      Erstellen Sie maßgeschneiderte Dataproc-Cluster mit bestimmten Versionen von Spark, Jupyter und den erforderlichen ML-Bibliotheken für das Training von Modellen im Team, in großem Maßstab und mit erweiterten Analysen. Integration in Vertex AI für MLOps.


      Verschiedene Open-Source-Analyse-Engines ausführen

      Flexibler OSS

      Erstellen Sie dedizierte Cluster mit Trino für interaktive SQL-Abfragen, Flink für erweiterte Streamverarbeitung oder nutzen Sie andere spezialisierte Open-Source-Engines neben Spark und Hadoop, die alle von Dataproc verwaltet werden.

      Flexibler OSS

      Erstellen Sie dedizierte Cluster mit Trino für interaktive SQL-Abfragen, Flink für erweiterte Streamverarbeitung oder nutzen Sie andere spezialisierte Open-Source-Engines neben Spark und Hadoop, die alle von Dataproc verwaltet werden.

      Preise

      Dataproc-Preise für verwaltete ClusterDataproc bietet Pay-as-you-go-Preise. Kosten mit Autoscaling und VMs auf Abruf optimieren. Compute Engine Premium-Stufe ermöglicht schnelleres Spark mit Lightning Engine.

      Schlüsselkomponenten:

      • Compute Engine-Instanzen (vCPU, Arbeitsspeicher)
      • Dataproc-Dienstgebühr (pro vCPU-Stunde)
      • Nichtflüchtiger Speicher


      Beispiel:

      Ein Cluster mit 6 Knoten (1 Haupt-+ 5 Worker) von 4 CPUs, die jeweils 2 Stunden lang ausgeführt wurden, würde 0,48 $ kosten. Dataproc-Gebühren = Anzahl der vCPUs * Stunden * Dataproc-Preis = 24 * 2 * 0,01 $ = = 0,48 $

      Dataproc-Preise für verwaltete Cluster

      Dataproc bietet Pay-as-you-go-Preise. Kosten mit Autoscaling und VMs auf Abruf optimieren. Compute Engine Premium-Stufe ermöglicht schnelleres Spark mit Lightning Engine.

      Schlüsselkomponenten:

      • Compute Engine-Instanzen (vCPU, Arbeitsspeicher)
      • Dataproc-Dienstgebühr (pro vCPU-Stunde)
      • Nichtflüchtiger Speicher


      Beispiel:

      Ein Cluster mit 6 Knoten (1 Haupt-+ 5 Worker) von 4 CPUs, die jeweils 2 Stunden lang ausgeführt wurden, würde 0,48 $ kosten. Dataproc-Gebühren = Anzahl der vCPUs * Stunden * Dataproc-Preis = 24 * 2 * 0,01 $ = = 0,48 $

      Preisrechner

      Mit dem Preisrechner können Sie Ihre monatlichen Dataproc-Kosten einschließlich regionsspezifischer Preise und Gebühren schätzen.

      Individuelles Angebot

      Wenden Sie sich an unser Vertriebsteam, wenn Sie ein individuelles Angebot für Ihr Unternehmen erhalten möchten.

      Los gehts

      300 $ Startguthaben für Neukunden

      Sie haben ein großes Projekt?

      Dataproc-Cluster mit der Google Cloud Console erstellen

      Cloud Storage-Connector mit Apache Spark verwenden

      Das Architecture Center bietet Inhaltsressourcen für eine Vielzahl von Migrationsthemen und ‑szenarien, um Sie bei der Migration von Arbeitslasten, Daten und Prozessen zu Google Cloud zu unterstützen.

      Dataproc
      Google Cloud