Dataproc

Une plate-forme gérée pour Spark, Hadoop et les analyses Open Source

Exécutez des clusters Apache Spark, Hadoop et plus de 30 frameworks Open Source entièrement gérés, avec facilité et contrôle. Accélérez Spark sur Compute Engine avec Lightning Engine et intégrez-le à la solution Open Lakehouse de Google Cloud.

Apache Spark est une marque de l'Apache Software Foundation.

Fonctionnalités

Compatibilité robuste avec l'écosystème Hadoop

Outre Spark, Dataproc fournit des services entièrement gérés pour la pile Apache Hadoop complète (MapReduce, HDFS, YARN), ainsi que pour Flink, Trino, Hive et plus de 30 autres outils Open Source. Pour répondre à ces besoins, Dataproc s'intègre à Dataproc Metastore, un service Hive Metastore entièrement géré qui simplifie la gestion des métadonnées pour les composants de lac de données traditionnels. Modernisez les charges de travail de lac de données traditionnelles ou créez de nouvelles applications avec vos moteurs préférés.

Spark géré avec Lightning Engine

Exécutez des charges de travail Spark exigeantes avec le contrôle d'un cluster Dataproc géré, désormais optimisé avec une vitesse de requête 3,6 fois* supérieure grâce à Lightning Engine**, en version Preview. Bénéficiez d'une amélioration significative des performances des opérations Spark SQL et DataFrame. Configurez des environnements Spark en fonction de vos besoins, en choisissant les versions et les bibliothèques.

* Les requêtes sont dérivées de la norme TPC-DS et de la norme TPC-H. Elles ne sont donc pas comparables aux résultats publiés pour la norme TPC-DS et la norme TPC-H, car ces exécutions ne respectent pas toutes les exigences de la spécification de la norme TPC-DS et de la norme TPC-H.

** Disponible pour Dataproc sur le niveau premium de Compute Engine.

Configuration et gestion flexibles des clusters

Personnalisez les clusters Dataproc avec un large éventail de types de machines (y compris des GPU), de VM préemptives, d'options de disque, de règles d'autoscaling, d'actions d'initialisation, de conteneurs/images et de composants facultatifs. Utilisez des fonctionnalités telles que les modèles de workflow pour orchestrer des jobs complexes et gérer des clusters via la console, gcloud, l'API ou des bibliothèques clientes. Bénéficiez d'une visibilité approfondie sur les performances et l'état du cluster grâce à l'intégration à Cloud Monitoring, qui fournit des métriques, des tableaux de bord et des fonctionnalités d'alerte complets.

Connectivité Open Lakehouse

Les clusters Dataproc s'intègrent de façon native au métastore BigLake, ce qui vous permet de traiter des données stockées dans des formats ouverts tels qu'Apache Iceberg sur Cloud Storage. Pour les besoins traditionnels en matière de métadonnées basés sur Hive, il existe une intégration parfaite avec le service géré Dataproc Metastore. Exploitez Dataplex Universal Catalog pour une découverte, une gouvernance et une gestion unifiées de vos assets de lakehouse. Étendez vos applications de données en connectant Dataproc à BigQuery, Vertex AI, Spanner, Pub/Sub et Data Fusion, et créez des solutions de bout en bout puissantes.

Sécurisez votre traitement de données Open Source

Profitez de la sécurité renforcée de Google Cloud. Configurez Kerberos, gérez les accès avec IAM, appliquez des stratégies réseau avec VPC Service Controls et utilisez CMEK. Intégrez-vous à Dataplex Universal Catalog pour une gestion centralisée des règles et activez le contrôle précis des accès avec BigLake.

Donnez les moyens aux ingénieurs de données et aux data scientists

Utilisez des outils et des IDE familiers, tels que les IDE Jupyter et VS Code, exécutés sur vos ordinateurs portables, pour connecter les clusters Dataproc. Intégrez Dataproc à Vertex AI Workbench pour le développement Spark interactif sur des clusters, et créez des pipelines d'IA/de ML de bout en bout avec Vertex AI.

Fonctionnement

Opérations de cluster simplifiées pour des analyses performantes

Utilisations courantes

Modernisation des lacs de données et migration Hadoop

Moderniser votre lac de données

Migrez facilement vos charges de travail Hadoop et Spark sur site vers le cloud. Utilisez Dataproc pour exécuter des jobs MapReduce, Hive, Pig et Spark sur des données stockées dans Cloud Storage, intégrées à Dataproc Metastore et régies par Dataplex Universal Catalog.

Moderniser votre lac de données

Migrez facilement vos charges de travail Hadoop et Spark sur site vers le cloud. Utilisez Dataproc pour exécuter des jobs MapReduce, Hive, Pig et Spark sur des données stockées dans Cloud Storage, intégrées à Dataproc Metastore et régies par Dataplex Universal Catalog.

ETL par lot à grande échelle avec Spark et Hadoop

Traitement par lot pour les entreprises

Traitez et transformez efficacement des ensembles de données volumineux à l'aide de Spark, accéléré par Lightning Engine avec Dataproc sur Compute Engine, ou MapReduce sur des clusters Dataproc personnalisables. Optimisez les performances et les coûts des pipelines ETL complexes dans un environnement contrôlé.

    Traitement par lot pour les entreprises

    Traitez et transformez efficacement des ensembles de données volumineux à l'aide de Spark, accéléré par Lightning Engine avec Dataproc sur Compute Engine, ou MapReduce sur des clusters Dataproc personnalisables. Optimisez les performances et les coûts des pipelines ETL complexes dans un environnement contrôlé.

      Environnements de science des données et de ML configurables

      Data science personnalisée à grande échelle

      Créez des clusters Dataproc sur mesure avec des versions spécifiques de Spark, Jupyter et des bibliothèques de ML requises pour l'entraînement collaboratif de modèles à grande échelle et les analyses avancées. Intégration de Vertex AI pour le MLOps


      Data science personnalisée à grande échelle

      Créez des clusters Dataproc sur mesure avec des versions spécifiques de Spark, Jupyter et des bibliothèques de ML requises pour l'entraînement collaboratif de modèles à grande échelle et les analyses avancées. Intégration de Vertex AI pour le MLOps


      Exécuter différents moteurs d'analyse Open Source

      OSS flexible

      Déployez des clusters dédiés avec Trino pour le SQL interactif, Flink pour le traitement par flux avancé ou d'autres moteurs Open Source spécialisés, en plus de Spark et Hadoop, le tout géré par Dataproc.

      OSS flexible

      Déployez des clusters dédiés avec Trino pour le SQL interactif, Flink pour le traitement par flux avancé ou d'autres moteurs Open Source spécialisés, en plus de Spark et Hadoop, le tout géré par Dataproc.

      Tarification

      Tarifs de Dataproc pour les clusters gérésDataproc propose un modèle de tarification basé sur le paiement à l'usage. Optimisez les coûts grâce à l'autoscaling et aux VM préemptives. La version premium de Compute Engine permet d'accélérer Spark avec Lightning Engine.

      Composants clés :

      • Instances Compute Engine (vCPU, mémoire)
      • Frais de service Dataproc (par vCPU/heure)
      • Disques persistants


      Exemple :

      Un cluster comportant 6 nœuds (1 nœud principal + 5 nœuds de calcul) avec 4 processeurs chacun fonctionnant pendant 2 heures coûterait 0,48 $. Frais Dataproc = nombre de vCPU x heures x tarif Dataproc = 24 x 2 x 0,01 = 0,48 $

      Tarifs de Dataproc pour les clusters gérés

      Dataproc propose un modèle de tarification basé sur le paiement à l'usage. Optimisez les coûts grâce à l'autoscaling et aux VM préemptives. La version premium de Compute Engine permet d'accélérer Spark avec Lightning Engine.

      Composants clés :

      • Instances Compute Engine (vCPU, mémoire)
      • Frais de service Dataproc (par vCPU/heure)
      • Disques persistants


      Exemple :

      Un cluster comportant 6 nœuds (1 nœud principal + 5 nœuds de calcul) avec 4 processeurs chacun fonctionnant pendant 2 heures coûterait 0,48 $. Frais Dataproc = nombre de vCPU x heures x tarif Dataproc = 24 x 2 x 0,01 = 0,48 $

      Simulateur de coût

      Estimez vos coûts Dataproc mensuels (l'estimation inclut les tarifs et les frais spécifiques à une région).

      Devis personnalisé

      Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.

      Lancez-vous

      300 $ de crédits offerts pour tous les nouveaux clients

      Vous avez un projet volumineux ?

      Créer un cluster Dataproc à l'aide de la console Google Cloud

      Utiliser le connecteur Cloud Storage avec Apache Spark

      Le centre d'architecture fournit des ressources de contenu sur une grande variété de sujets et de scénarios de migration pour vous aider

      Dataproc
      • Faites des économies grâce à notre approche transparente concernant la tarification
      • Le paiement à l'usage de Google Cloud permet de réaliser des économies automatiques basées sur votre utilisation mensuelle et des tarifs réduits pour les ressources prépayées. Contactez-nous dès aujourd'hui afin d'obtenir un devis.
      Google Cloud