Google Cloud Dataproc peut permettre de faire des économies de 18 % à 60 % par rapport aux autres solutions cloud Hadoop et Spark. Téléchargez le rapport ESG.

Dataproc

Une plate-forme gérée pour Spark, Hadoop et les analyses Open Source

Exécutez des clusters Apache Spark, Hadoop et plus de 30 frameworks Open Source entièrement gérés, avec facilité et contrôle. Accélérez Spark sur Compute Engine avec Lightning Engine et intégrez-le à la solution Open Lakehouse de Google Cloud.

Apache Spark est une marque de l'Apache Software Foundation.

Fonctionnalités

Compatibilité robuste avec l'écosystème Hadoop

Outre Spark, Dataproc fournit des services entièrement gérés pour la pile Apache Hadoop complète (MapReduce, HDFS, YARN), ainsi que pour Flink, Trino, Hive et plus de 30 autres outils Open Source. Pour répondre à ces besoins, Dataproc s'intègre à Dataproc Metastore, un service Hive Metastore entièrement géré qui simplifie la gestion des métadonnées pour les composants de lac de données traditionnels. Modernisez les charges de travail de lac de données traditionnelles ou créez de nouvelles applications avec vos moteurs préférés.

Spark géré avec Lightning Engine

Exécutez des charges de travail Spark exigeantes avec le contrôle d'un cluster Dataproc géré, désormais optimisé avec une vitesse de requête 3,6 fois* supérieure grâce à Lightning Engine**, en version Preview. Bénéficiez d'une amélioration significative des performances des opérations Spark SQL et DataFrame. Configurez des environnements Spark en fonction de vos besoins, en choisissant les versions et les bibliothèques.

* Les requêtes sont dérivées de la norme TPC-DS et de la norme TPC-H. Elles ne sont donc pas comparables aux résultats publiés pour la norme TPC-DS et la norme TPC-H, car ces exécutions ne respectent pas toutes les exigences de la spécification de la norme TPC-DS et de la norme TPC-H.

** Disponible pour Dataproc sur le niveau premium de Compute Engine.

Configuration et gestion flexibles des clusters

Personnalisez les clusters Dataproc avec un large éventail de types de machines (y compris des GPU), de VM préemptives, d'options de disque, de règles d'autoscaling, d'actions d'initialisation, de conteneurs/images et de composants facultatifs. Utilisez des fonctionnalités telles que les modèles de workflow pour orchestrer des jobs complexes et gérer des clusters via la console, gcloud, l'API ou des bibliothèques clientes. Bénéficiez d'une visibilité approfondie sur les performances et l'état du cluster grâce à l'intégration à Cloud Monitoring, qui fournit des métriques, des tableaux de bord et des fonctionnalités d'alerte complets.

Connectivité Open Lakehouse

Les clusters Dataproc s'intègrent de façon native au métastore BigLake, ce qui vous permet de traiter des données stockées dans des formats ouverts tels qu'Apache Iceberg sur Cloud Storage. Pour les besoins traditionnels en matière de métadonnées basés sur Hive, il existe une intégration parfaite avec le service géré Dataproc Metastore. Exploitez Dataplex Universal Catalog pour une découverte, une gouvernance et une gestion unifiées de vos assets de lakehouse. Étendez vos applications de données en connectant Dataproc à BigQuery, Vertex AI, Spanner, Pub/Sub et Data Fusion, et créez des solutions de bout en bout puissantes.

Sécurisez votre traitement de données Open Source

Profitez de la sécurité renforcée de Google Cloud. Configurez Kerberos, gérez les accès avec IAM, appliquez des stratégies réseau avec VPC Service Controls et utilisez CMEK. Intégrez-vous à Dataplex Universal Catalog pour une gestion centralisée des règles et activez le contrôle précis des accès avec BigLake.

Donnez les moyens aux ingénieurs de données et aux data scientists

Utilisez des outils et des IDE familiers, tels que les IDE Jupyter et VS Code, exécutés sur vos ordinateurs portables, pour connecter les clusters Dataproc. Intégrez Dataproc à Vertex AI Workbench pour le développement Spark interactif sur des clusters, et créez des pipelines d'IA/de ML de bout en bout avec Vertex AI.

Fonctionnement

Opérations de cluster simplifiées pour des analyses performantes

Utilisations courantes

Modernisation des lacs de données et migration Hadoop

Moderniser votre lac de données

Migrez facilement vos charges de travail Hadoop et Spark sur site vers le cloud. Utilisez Dataproc pour exécuter des jobs MapReduce, Hive, Pig et Spark sur des données stockées dans Cloud Storage, intégrées à Dataproc Metastore et régies par Dataplex Universal Catalog.

Tutoriels, guides de démarrage rapide et ateliers

Moderniser votre lac de données

Migrez facilement vos charges de travail Hadoop et Spark sur site vers le cloud. Utilisez Dataproc pour exécuter des jobs MapReduce, Hive, Pig et Spark sur des données stockées dans Cloud Storage, intégrées à Dataproc Metastore et régies par Dataplex Universal Catalog.

ETL par lot à grande échelle avec Spark et Hadoop

Traitement par lot pour les entreprises

Traitez et transformez efficacement des ensembles de données volumineux à l'aide de Spark, accéléré par Lightning Engine avec Dataproc sur Compute Engine, ou MapReduce sur des clusters Dataproc personnalisables. Optimisez les performances et les coûts des pipelines ETL complexes dans un environnement contrôlé.

Tutoriels, guides de démarrage rapide et ateliers

Traitement par lot pour les entreprises

Traitez et transformez efficacement des ensembles de données volumineux à l'aide de Spark, accéléré par Lightning Engine avec Dataproc sur Compute Engine, ou MapReduce sur des clusters Dataproc personnalisables. Optimisez les performances et les coûts des pipelines ETL complexes dans un environnement contrôlé.

Environnements de science des données et de ML configurables

Data science personnalisée à grande échelle

Créez des clusters Dataproc sur mesure avec des versions spécifiques de Spark, Jupyter et des bibliothèques de ML requises pour l'entraînement collaboratif de modèles à grande échelle et les analyses avancées. Intégration de Vertex AI pour le MLOps

Recettes d'IA/de ML pour Dataproc

Tutoriels, guides de démarrage rapide et ateliers

Data science personnalisée à grande échelle

Créez des clusters Dataproc sur mesure avec des versions spécifiques de Spark, Jupyter et des bibliothèques de ML requises pour l'entraînement collaboratif de modèles à grande échelle et les analyses avancées. Intégration de Vertex AI pour le MLOps

Recettes d'IA/de ML pour Dataproc

Exécuter différents moteurs d'analyse Open Source

OSS flexible

Déployez des clusters dédiés avec Trino pour le SQL interactif, Flink pour le traitement par flux avancé ou d'autres moteurs Open Source spécialisés, en plus de Spark et Hadoop, le tout géré par Dataproc.

Dataproc et TensorFlow sur YARN

Tutoriels, guides de démarrage rapide et ateliers

OSS flexible

Déployez des clusters dédiés avec Trino pour le SQL interactif, Flink pour le traitement par flux avancé ou d'autres moteurs Open Source spécialisés, en plus de Spark et Hadoop, le tout géré par Dataproc.

Dataproc et TensorFlow sur YARN

Tarification

Tarifs de Dataproc pour les clusters gérés	Dataproc propose un modèle de tarification basé sur le paiement à l'usage. Optimisez les coûts grâce à l'autoscaling et aux VM préemptives. La version premium de Compute Engine permet d'accélérer Spark avec Lightning Engine.
Composants clés :	Instances Compute Engine (vCPU, mémoire) Frais de service Dataproc (par vCPU/heure) Disques persistants
Exemple :	Un cluster comportant 6 nœuds (1 nœud principal + 5 nœuds de calcul) avec 4 processeurs chacun fonctionnant pendant 2 heures coûterait 0,48 $. Frais Dataproc = nombre de vCPU x heures x tarif Dataproc = 24 x 2 x 0,01 = 0,48 $

Consulter les tarifs détaillés de Dataproc

Tarifs de Dataproc pour les clusters gérés

Dataproc propose un modèle de tarification basé sur le paiement à l'usage. Optimisez les coûts grâce à l'autoscaling et aux VM préemptives. La version premium de Compute Engine permet d'accélérer Spark avec Lightning Engine.

Composants clés :

Instances Compute Engine (vCPU, mémoire)
Frais de service Dataproc (par vCPU/heure)
Disques persistants

Exemple :

Un cluster comportant 6 nœuds (1 nœud principal + 5 nœuds de calcul) avec 4 processeurs chacun fonctionnant pendant 2 heures coûterait 0,48 $. Frais Dataproc = nombre de vCPU x heures x tarif Dataproc = 24 x 2 x 0,01 = 0,48 $

Consulter les tarifs détaillés de Dataproc

Simulateur de coût

Estimez vos coûts Dataproc mensuels (l'estimation inclut les tarifs et les frais spécifiques à une région).

Devis personnalisé

Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.

Dataproc

Une plate-forme gérée pour Spark, Hadoop et les analyses Open Source

Points forts du produit :

Compatibilité robuste avec l'écosystème Hadoop

Spark géré avec Lightning Engine

Configuration et gestion flexibles des clusters

Connectivité Open Lakehouse

Sécurisez votre traitement de données Open Source

Donnez les moyens aux ingénieurs de données et aux data scientists

Opérations de cluster simplifiées pour des analyses performantes

Modernisation des lacs de données et migration Hadoop

Moderniser votre lac de données

Tutoriels, guides de démarrage rapide et ateliers

Moderniser votre lac de données

ETL par lot à grande échelle avec Spark et Hadoop

Traitement par lot pour les entreprises

Tutoriels, guides de démarrage rapide et ateliers

Traitement par lot pour les entreprises

Environnements de science des données et de ML configurables

Data science personnalisée à grande échelle

Tutoriels, guides de démarrage rapide et ateliers

Data science personnalisée à grande échelle

Exécuter différents moteurs d'analyse Open Source

OSS flexible

Tutoriels, guides de démarrage rapide et ateliers

OSS flexible

Simulateur de coût

Devis personnalisé

Lancez-vous

300 $ de crédits offerts pour tous les nouveaux clients

Vous avez un projet volumineux ?

Créer un cluster Dataproc à l'aide de la console Google Cloud

Utiliser le connecteur Cloud Storage avec Apache Spark

Le centre d'architecture fournit des ressources de contenu sur une grande variété de sujets et de scénarios de migration pour vous aider