Dataproc

Una plataforma gestionada para Spark, Hadoop y analíticas de código abierto

Ejecuta clústeres totalmente gestionados de Apache Spark, Hadoop y más de 30 frameworks de software libre con facilidad y control. Acelera Spark en Compute Engine con Lightning Engine e intégralo con la lakehouse abierta de Google Cloud.

Apache Spark es una marca de The Apache Software Foundation.

Características

Compatibilidad con un ecosistema de Hadoop potente

Además de Spark, Dataproc ofrece servicios totalmente gestionados para la pila completa de Apache Hadoop (MapReduce, HDFS, YARN), así como Flink, Trino, Hive y más de 30 herramientas de software libre. Para admitirlos, Dataproc se integra con Dataproc Metastore, un servicio totalmente gestionado de Hive Metastore que simplifica la gestión de metadatos de los componentes de tu data lake tradicional. Moderniza las cargas de trabajo de los lagos de datos tradicionales o crea nuevas aplicaciones con tus motores preferidos.

Managed Spark con Lightning Engine

Ejecuta cargas de trabajo exigentes de Spark con el control de un clúster de Dataproc gestionado, ahora con una velocidad de consulta 3,6 veces superior* gracias al motor Lightning,** en versión preliminar. Disfruta de mejoras significativas en el rendimiento de las operaciones de Spark SQL y DataFrame. Configura los entornos de Spark según tus necesidades y elige las versiones y las bibliotecas.

*Las consultas se derivan del estándar TPC-DS y del estándar TPC-H, por lo que no se pueden comparar con los resultados publicados del estándar TPC-DS y del estándar TPC-H, ya que estas ejecuciones no cumplen todos los requisitos de la especificación del estándar TPC-DS y del estándar TPC-H.

**Disponible para Dataproc en Compute Engine en el nivel premium.

Configuración y gestión flexibles de clústeres

Personaliza los clústeres de Dataproc con una amplia gama de tipos de máquina (incluidas las GPUs), máquinas virtuales interrumpibles, opciones de disco, políticas de autoescalado, acciones de inicialización, contenedores/imágenes y componentes opcionales. Usa funciones como las plantillas de flujos de trabajo para orquestar trabajos complejos y gestiona clústeres a través de la consola, gcloud, la API o las bibliotecas de cliente. Disfruta de una visibilidad exhaustiva del rendimiento y el estado de los clústeres gracias a la integración con Cloud Monitoring, que ofrece métricas, paneles de control y funciones de alertas completos.

Conectividad de lakehouse abierta

Los clústeres de Dataproc se integran de forma nativa con BigLake Metastore, lo que te permite procesar datos almacenados en formatos abiertos como Apache Iceberg en Cloud Storage. Para las necesidades de metadatos tradicionales basadas en Hive, hay una integración perfecta con el servicio gestionado Dataproc Metastore. Aprovecha el catálogo universal de Dataplex para un descubrimiento, un linaje y una gobernanza unificados en todos tus recursos de lakehouse. Amplía tus aplicaciones de datos conectando Dataproc con BigQuery, Vertex AI, Spanner, Pub/Sub y Data Fusion para crear soluciones integrales y eficaces.

Protege el tratamiento de datos de código abierto

Disfruta de la sólida seguridad de Google Cloud. Configura Kerberos, gestiona el acceso con IAM, aplica políticas de red con Controles de Servicio de VPC y usa CMEK. Integra Dataplex Universal Catalog para gestionar las políticas de forma centralizada y habilita el control de acceso pormenorizado con BigLake.

Ofrece herramientas a los ingenieros de datos y a los científicos de datos

Utiliza herramientas y entornos de desarrollo (IDEs) que ya conoces, como los IDEs de Jupyter y VS Code, que se ejecutan en tus portátiles para conectar los clústeres de Dataproc. Integra Dataproc con Vertex AI Workbench para desarrollar Spark de forma interactiva en clústeres y crea flujos de procesamiento de IA y aprendizaje automático de extremo a extremo con Vertex AI.

Cómo funciona

Operaciones de clústeres simplificadas para analíticas potentes

Usos habituales

Modernización de data lake y migración de Hadoop

Moderniza tu data lake

Migra tus cargas de trabajo de Hadoop y Spark on-premise a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados con Dataproc Metastore y gestionados por Dataplex Universal Catalog.

Moderniza tu data lake

Migra tus cargas de trabajo de Hadoop y Spark on-premise a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados con Dataproc Metastore y gestionados por Dataplex Universal Catalog.

ETL por lotes a gran escala con Spark y Hadoop

Procesamiento por lotes para empresas

Procesa y transforma conjuntos de datos enormes de forma eficiente con Spark, que se acelera con Lightning Engine en Dataproc en Compute Engine, o MapReduce en clústeres de Dataproc personalizables. Optimiza el rendimiento y los costes de flujos de procesamiento ETL complejos en un entorno controlado.

    Procesamiento por lotes para empresas

    Procesa y transforma conjuntos de datos enormes de forma eficiente con Spark, que se acelera con Lightning Engine en Dataproc en Compute Engine, o MapReduce en clústeres de Dataproc personalizables. Optimiza el rendimiento y los costes de flujos de procesamiento ETL complejos en un entorno controlado.

      Entornos de ciencia de datos y aprendizaje automático configurables

      Ciencia de datos personalizada a escala

      Reactiva clústeres de Dataproc diseñados para un propósito concreto con versiones específicas de Spark, Jupyter y las bibliotecas de aprendizaje automático que necesites para colaborar en el entrenamiento de modelos a gran escala y crear analíticas avanzadas. Integración con Vertex AI para MLOps.


      Ciencia de datos personalizada a escala

      Reactiva clústeres de Dataproc diseñados para un propósito concreto con versiones específicas de Spark, Jupyter y las bibliotecas de aprendizaje automático que necesites para colaborar en el entrenamiento de modelos a gran escala y crear analíticas avanzadas. Integración con Vertex AI para MLOps.


      Ejecutar diversos motores de analíticas de código abierto

      Software libre flexible

      Despliega clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento avanzado de flujos o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos gestionados por Dataproc.

      Software libre flexible

      Despliega clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento avanzado de flujos o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos gestionados por Dataproc.

      Precios

      Precios de Dataproc para clústeres gestionadosDataproc ofrece un modelo de precios de pago por uso. Optimiza los costes con el autoescalado y las máquinas virtuales interrumpibles. El nivel premium de Compute Engine permite que Spark sea más rápido con Lightning Engine.

      Componentes clave:

      • Instancias de Compute Engine (vCPU y memoria)
      • Tarifa del servicio Dataproc (por hora de vCPU)
      • Discos persistentes


      Ejemplo:

      Un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD

      Precios de Dataproc para clústeres gestionados

      Dataproc ofrece un modelo de precios de pago por uso. Optimiza los costes con el autoescalado y las máquinas virtuales interrumpibles. El nivel premium de Compute Engine permite que Spark sea más rápido con Lightning Engine.

      Componentes clave:

      • Instancias de Compute Engine (vCPU y memoria)
      • Tarifa del servicio Dataproc (por hora de vCPU)
      • Discos persistentes


      Ejemplo:

      Un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD

      Calculadora de precios

      Calcula tus costes mensuales de Dataproc, incluidos los precios y las tarifas específicas de cada región.

      Presupuesto personalizado

      Ponte en contacto con nuestro equipo de ventas para solicitar un presupuesto personalizado para tu organización.

      Empieza ya

      300 USD en crédito gratis para los nuevos clientes

      ¿Tienes un proyecto de gran envergadura?

      Crea un clúster de Dataproc mediante la consola de Google Cloud

      Utilizar el conector de Cloud Storage con Apache Spark

      El centro de arquitectura proporciona recursos de contenido sobre una amplia variedad de temas y situaciones de migración para ayudarte

      Dataproc
      Google Cloud