Google Cloud Dataproc peut permettre de faire des économies de 18 % à 60 % par rapport aux autres solutions cloud Hadoop et Spark. Téléchargez le rapport ESG.
Exécutez des clusters Apache Spark, Hadoop et plus de 30 frameworks Open Source entièrement gérés, avec facilité et contrôle. Accélérez Spark sur Compute Engine avec Lightning Engine et intégrez-le à la solution Open Lakehouse de Google Cloud.
Apache Spark est une marque de l'Apache Software Foundation.
Fonctionnalités
Outre Spark, Dataproc fournit des services entièrement gérés pour la pile Apache Hadoop complète (MapReduce, HDFS, YARN), ainsi que pour Flink, Trino, Hive et plus de 30 autres outils Open Source. Pour répondre à ces besoins, Dataproc s'intègre à Dataproc Metastore, un service Hive Metastore entièrement géré qui simplifie la gestion des métadonnées pour les composants de lac de données traditionnels. Modernisez les charges de travail de lac de données traditionnelles ou créez de nouvelles applications avec vos moteurs préférés.
Exécutez des charges de travail Spark exigeantes avec le contrôle d'un cluster Dataproc géré, désormais optimisé avec une vitesse de requête 3,6 fois* supérieure grâce à Lightning Engine**, en version Preview. Bénéficiez d'une amélioration significative des performances des opérations Spark SQL et DataFrame. Configurez des environnements Spark en fonction de vos besoins, en choisissant les versions et les bibliothèques.
* Les requêtes sont dérivées de la norme TPC-DS et de la norme TPC-H. Elles ne sont donc pas comparables aux résultats publiés pour la norme TPC-DS et la norme TPC-H, car ces exécutions ne respectent pas toutes les exigences de la spécification de la norme TPC-DS et de la norme TPC-H.
** Disponible pour Dataproc sur le niveau premium de Compute Engine.
Personnalisez les clusters Dataproc avec un large éventail de types de machines (y compris des GPU), de VM préemptives, d'options de disque, de règles d'autoscaling, d'actions d'initialisation, de conteneurs/images et de composants facultatifs. Utilisez des fonctionnalités telles que les modèles de workflow pour orchestrer des jobs complexes et gérer des clusters via la console, gcloud, l'API ou des bibliothèques clientes. Bénéficiez d'une visibilité approfondie sur les performances et l'état du cluster grâce à l'intégration à Cloud Monitoring, qui fournit des métriques, des tableaux de bord et des fonctionnalités d'alerte complets.
Les clusters Dataproc s'intègrent de façon native au métastore BigLake, ce qui vous permet de traiter des données stockées dans des formats ouverts tels qu'Apache Iceberg sur Cloud Storage. Pour les besoins traditionnels en matière de métadonnées basés sur Hive, il existe une intégration parfaite avec le service géré Dataproc Metastore. Exploitez Dataplex Universal Catalog pour une découverte, une gouvernance et une gestion unifiées de vos assets de lakehouse. Étendez vos applications de données en connectant Dataproc à BigQuery, Vertex AI, Spanner, Pub/Sub et Data Fusion, et créez des solutions de bout en bout puissantes.
Profitez de la sécurité renforcée de Google Cloud. Configurez Kerberos, gérez les accès avec IAM, appliquez des stratégies réseau avec VPC Service Controls et utilisez CMEK. Intégrez-vous à Dataplex Universal Catalog pour une gestion centralisée des règles et activez le contrôle précis des accès avec BigLake.
Utilisez des outils et des IDE familiers, tels que les IDE Jupyter et VS Code, exécutés sur vos ordinateurs portables, pour connecter les clusters Dataproc. Intégrez Dataproc à Vertex AI Workbench pour le développement Spark interactif sur des clusters, et créez des pipelines d'IA/de ML de bout en bout avec Vertex AI.
Utilisations courantes
Moderniser votre lac de données
Migrez facilement vos charges de travail Hadoop et Spark sur site vers le cloud. Utilisez Dataproc pour exécuter des jobs MapReduce, Hive, Pig et Spark sur des données stockées dans Cloud Storage, intégrées à Dataproc Metastore et régies par Dataplex Universal Catalog.
Moderniser votre lac de données
Migrez facilement vos charges de travail Hadoop et Spark sur site vers le cloud. Utilisez Dataproc pour exécuter des jobs MapReduce, Hive, Pig et Spark sur des données stockées dans Cloud Storage, intégrées à Dataproc Metastore et régies par Dataplex Universal Catalog.
Traitement par lot pour les entreprises
Traitez et transformez efficacement des ensembles de données volumineux à l'aide de Spark, accéléré par Lightning Engine avec Dataproc sur Compute Engine, ou MapReduce sur des clusters Dataproc personnalisables. Optimisez les performances et les coûts des pipelines ETL complexes dans un environnement contrôlé.
Traitement par lot pour les entreprises
Traitez et transformez efficacement des ensembles de données volumineux à l'aide de Spark, accéléré par Lightning Engine avec Dataproc sur Compute Engine, ou MapReduce sur des clusters Dataproc personnalisables. Optimisez les performances et les coûts des pipelines ETL complexes dans un environnement contrôlé.
Data science personnalisée à grande échelle
Créez des clusters Dataproc sur mesure avec des versions spécifiques de Spark, Jupyter et des bibliothèques de ML requises pour l'entraînement collaboratif de modèles à grande échelle et les analyses avancées. Intégration de Vertex AI pour le MLOps
Data science personnalisée à grande échelle
Créez des clusters Dataproc sur mesure avec des versions spécifiques de Spark, Jupyter et des bibliothèques de ML requises pour l'entraînement collaboratif de modèles à grande échelle et les analyses avancées. Intégration de Vertex AI pour le MLOps
OSS flexible
Déployez des clusters dédiés avec Trino pour le SQL interactif, Flink pour le traitement par flux avancé ou d'autres moteurs Open Source spécialisés, en plus de Spark et Hadoop, le tout géré par Dataproc.
OSS flexible
Déployez des clusters dédiés avec Trino pour le SQL interactif, Flink pour le traitement par flux avancé ou d'autres moteurs Open Source spécialisés, en plus de Spark et Hadoop, le tout géré par Dataproc.
Tarification
Tarifs de Dataproc pour les clusters gérés | Dataproc propose un modèle de tarification basé sur le paiement à l'usage. Optimisez les coûts grâce à l'autoscaling et aux VM préemptives. La version premium de Compute Engine permet d'accélérer Spark avec Lightning Engine. |
---|---|
Composants clés : |
|
Exemple : | Un cluster comportant 6 nœuds (1 nœud principal + 5 nœuds de calcul) avec 4 processeurs chacun fonctionnant pendant 2 heures coûterait 0,48 $. Frais Dataproc = nombre de vCPU x heures x tarif Dataproc = 24 x 2 x 0,01 = 0,48 $ |
Tarifs de Dataproc pour les clusters gérés
Dataproc propose un modèle de tarification basé sur le paiement à l'usage. Optimisez les coûts grâce à l'autoscaling et aux VM préemptives. La version premium de Compute Engine permet d'accélérer Spark avec Lightning Engine.
Composants clés :
Exemple :
Un cluster comportant 6 nœuds (1 nœud principal + 5 nœuds de calcul) avec 4 processeurs chacun fonctionnant pendant 2 heures coûterait 0,48 $. Frais Dataproc = nombre de vCPU x heures x tarif Dataproc = 24 x 2 x 0,01 = 0,48 $