Google Cloud Dataproc puede ofrecer un ahorro de costes de entre el 18 % y el 60 % en comparación con otras alternativas de Hadoop y Spark basadas en la nube. Descargar informe de ESG
Ejecuta clústeres totalmente gestionados de Apache Spark, Hadoop y más de 30 frameworks de software libre con facilidad y control. Acelera Spark en Compute Engine con Lightning Engine e intégralo con la lakehouse abierta de Google Cloud.
Apache Spark es una marca de The Apache Software Foundation.
Clústeres de Spark y Hadoop gestionados con control y personalización completos
Lightning Engine para Spark: acelera tus cargas de trabajo
Compatibilidad con más de 30 frameworks de software libre
Integraciones de lakehouse listas para abrirse
Seguridad y gobernanza empresariales
Características
Además de Spark, Dataproc ofrece servicios totalmente gestionados para la pila completa de Apache Hadoop (MapReduce, HDFS, YARN), así como Flink, Trino, Hive y más de 30 herramientas de software libre. Para admitirlos, Dataproc se integra con Dataproc Metastore, un servicio totalmente gestionado de Hive Metastore que simplifica la gestión de metadatos de los componentes de tu data lake tradicional. Moderniza las cargas de trabajo de los lagos de datos tradicionales o crea nuevas aplicaciones con tus motores preferidos.
Ejecuta cargas de trabajo exigentes de Spark con el control de un clúster de Dataproc gestionado, ahora con una velocidad de consulta 3,6 veces superior* gracias al motor Lightning,** en versión preliminar. Disfruta de mejoras significativas en el rendimiento de las operaciones de Spark SQL y DataFrame. Configura los entornos de Spark según tus necesidades y elige las versiones y las bibliotecas.
*Las consultas se derivan del estándar TPC-DS y del estándar TPC-H, por lo que no se pueden comparar con los resultados publicados del estándar TPC-DS y del estándar TPC-H, ya que estas ejecuciones no cumplen todos los requisitos de la especificación del estándar TPC-DS y del estándar TPC-H.
**Disponible para Dataproc en Compute Engine en el nivel premium.
Personaliza los clústeres de Dataproc con una amplia gama de tipos de máquina (incluidas las GPUs), máquinas virtuales interrumpibles, opciones de disco, políticas de autoescalado, acciones de inicialización, contenedores/imágenes y componentes opcionales. Usa funciones como las plantillas de flujos de trabajo para orquestar trabajos complejos y gestiona clústeres a través de la consola, gcloud, la API o las bibliotecas de cliente. Disfruta de una visibilidad exhaustiva del rendimiento y el estado de los clústeres gracias a la integración con Cloud Monitoring, que ofrece métricas, paneles de control y funciones de alertas completos.
Los clústeres de Dataproc se integran de forma nativa con BigLake Metastore, lo que te permite procesar datos almacenados en formatos abiertos como Apache Iceberg en Cloud Storage. Para las necesidades de metadatos tradicionales basadas en Hive, hay una integración perfecta con el servicio gestionado Dataproc Metastore. Aprovecha el catálogo universal de Dataplex para un descubrimiento, un linaje y una gobernanza unificados en todos tus recursos de lakehouse. Amplía tus aplicaciones de datos conectando Dataproc con BigQuery, Vertex AI, Spanner, Pub/Sub y Data Fusion para crear soluciones integrales y eficaces.
Disfruta de la sólida seguridad de Google Cloud. Configura Kerberos, gestiona el acceso con IAM, aplica políticas de red con Controles de Servicio de VPC y usa CMEK. Integra Dataplex Universal Catalog para gestionar las políticas de forma centralizada y habilita el control de acceso pormenorizado con BigLake.
Utiliza herramientas y entornos de desarrollo (IDEs) que ya conoces, como los IDEs de Jupyter y VS Code, que se ejecutan en tus portátiles para conectar los clústeres de Dataproc. Integra Dataproc con Vertex AI Workbench para desarrollar Spark de forma interactiva en clústeres y crea flujos de procesamiento de IA y aprendizaje automático de extremo a extremo con Vertex AI.
Usos habituales
Moderniza tu data lake
Migra tus cargas de trabajo de Hadoop y Spark on-premise a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados con Dataproc Metastore y gestionados por Dataplex Universal Catalog.
Moderniza tu data lake
Migra tus cargas de trabajo de Hadoop y Spark on-premise a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados con Dataproc Metastore y gestionados por Dataplex Universal Catalog.
Procesamiento por lotes para empresas
Procesa y transforma conjuntos de datos enormes de forma eficiente con Spark, que se acelera con Lightning Engine en Dataproc en Compute Engine, o MapReduce en clústeres de Dataproc personalizables. Optimiza el rendimiento y los costes de flujos de procesamiento ETL complejos en un entorno controlado.
Procesamiento por lotes para empresas
Procesa y transforma conjuntos de datos enormes de forma eficiente con Spark, que se acelera con Lightning Engine en Dataproc en Compute Engine, o MapReduce en clústeres de Dataproc personalizables. Optimiza el rendimiento y los costes de flujos de procesamiento ETL complejos en un entorno controlado.
Ciencia de datos personalizada a escala
Reactiva clústeres de Dataproc diseñados para un propósito concreto con versiones específicas de Spark, Jupyter y las bibliotecas de aprendizaje automático que necesites para colaborar en el entrenamiento de modelos a gran escala y crear analíticas avanzadas. Integración con Vertex AI para MLOps.
Ciencia de datos personalizada a escala
Reactiva clústeres de Dataproc diseñados para un propósito concreto con versiones específicas de Spark, Jupyter y las bibliotecas de aprendizaje automático que necesites para colaborar en el entrenamiento de modelos a gran escala y crear analíticas avanzadas. Integración con Vertex AI para MLOps.
Software libre flexible
Despliega clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento avanzado de flujos o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos gestionados por Dataproc.
Software libre flexible
Despliega clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento avanzado de flujos o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos gestionados por Dataproc.
Precios
Precios de Dataproc para clústeres gestionados | Dataproc ofrece un modelo de precios de pago por uso. Optimiza los costes con el autoescalado y las máquinas virtuales interrumpibles. El nivel premium de Compute Engine permite que Spark sea más rápido con Lightning Engine. |
---|---|
Componentes clave: |
|
Ejemplo: | Un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD |
Precios de Dataproc para clústeres gestionados
Dataproc ofrece un modelo de precios de pago por uso. Optimiza los costes con el autoescalado y las máquinas virtuales interrumpibles. El nivel premium de Compute Engine permite que Spark sea más rápido con Lightning Engine.
Componentes clave:
Ejemplo:
Un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD