Dataproc

Spark, Hadoop, 오픈소스 분석을 위한 관리형 플랫폼

완전 관리형 Apache Spark, Hadoop, 30개 이상의 오픈소스 프레임워크 클러스터를 손쉽게 제어하여 실행하세요. Lightning Engine으로 Compute Engine의 Spark를 가속화하고 Google Cloud의 개방형 레이크하우스와 통합하세요.

Apache Spark는 Apache Software Foundation의 상표입니다.

기능

강력한 Hadoop 생태계 지원

Dataproc은 Spark 외에도 전체 Apache Hadoop 스택(맵리듀스, HDFS, YARN)과 Flink, Trino, Hive, 기타 30개 이상의 오픈소스 도구를 위한 완전 관리형 서비스를 제공합니다. 이러한 서비스를 지원하기 위해 Dataproc은 완전 관리형 Hive Metastore 서비스인 Dataproc Metastore와 통합하여 기존 데이터 레이크 구성요소의 메타데이터 관리를 간소화합니다. 기존 데이터 레이크 워크로드를 현대화하거나 선호하는 엔진으로 새 애플리케이션을 빌드하세요.

Lightning Engine을 사용한 관리형 Spark

관리형 Dataproc 클러스터의 제어 기능을 통해 까다로운 Spark 워크로드를 실행하세요. 현재 프리뷰 버전의 Lightning Engine**으로 쿼리 속도가 3.6배* 빨라졌습니다. Spark SQL 및 DataFrame 작업의 성능이 크게 향상됩니다. 버전 및 라이브러리를 선택하여 필요에 따라 Spark 환경을 정확하게 구성합니다.

*쿼리는 TPC-DS 표준TPC-H 표준에서 파생되었으며, 이러한 실행은 TPC-DS 표준TPC-H 표준 사양의 모든 요구사항을 준수하지 않으므로 게시된 TPC-DS 표준TPC-H 표준 결과와 비교할 수 없습니다.

**Compute Engine 기반 Dataproc 프리미엄 등급에서 사용할 수 있습니다.

유연한 클러스터 구성 및 관리

다양한 머신 유형(GPU 포함), 선점형 VM, 디스크 옵션, 자동 확장 정책, 초기화 작업, 컨테이너/이미지, 선택적 구성요소를 사용하여 Dataproc 클러스터를 맞춤설정합니다. 워크플로 템플릿과 같은 기능을 사용하여 복잡한 작업을 조정하고 콘솔, gcloud, API 또는 클라이언트 라이브러리를 통해 클러스터를 관리합니다. 포괄적인 측정항목, 대시보드, 알림 기능을 제공하는 Cloud Monitoring과 통합하여 클러스터 성능 및 상태에 대한 심층적인 가시성을 확보합니다.

개방형 레이크하우스 연결

Dataproc 클러스터는 BigLake Metastore와 기본적으로 통합되므로 Cloud Storage 기반 Apache Iceberg와 같은 개방형 형식으로 저장된 데이터를 처리할 수 있습니다. 기존의 Hive 기반 메타데이터 요구사항의 경우 관리형 Dataproc Metastore 서비스와 원활하게 통합됩니다. Dataplex 범용 카탈로그를 활용하여 레이크하우스 애셋 전반에서 통합 탐색, 계보, 거버넌스를 실현하세요. Dataproc을 BigQuery, Vertex AI, Spanner, Pub/Sub, Data Fusion에 연결하여 강력한 엔드 투 엔드 솔루션을 만들어 데이터 애플리케이션을 확장하세요.

오픈소스 데이터 처리 보안

Google Cloud의 강력한 보안 기능을 활용하세요. Kerberos를 구성하고, IAM으로 액세스를 관리하고, VPC 서비스 제어로 네트워크 정책을 적용하고, CMEK를 사용합니다. Dataplex 범용 카탈로그와 통합하여 중앙 집중식 정책 관리를 수행하고 BigLake로 세분화된 액세스 제어를 지원합니다.

데이터 엔지니어와 데이터 과학자의 역량 강화

노트북에서 실행되는 Jupyter 및 VS Code IDE와 같은 익숙한 도구와 IDE를 활용하여 Dataproc 클러스터를 연결합니다. 클러스터에서 대화형 Spark 개발을 위해 Dataproc을 Vertex AI Workbench와 통합하고 엔드 투 엔드 Vertex AI를 사용한 AI/ML 파이프라인을 빌드하세요.

작동 방식

강력한 분석을 위한 간소화된 클러스터 작업

일반적인 용도

데이터 레이크 현대화 및 Hadoop 마이그레이션

데이터 레이크 현대화

온프레미스 Hadoop 및 Spark 워크로드를 클라우드로 간편하게 마이그레이션하세요. Dataproc을 사용하여 Dataproc Metastore와 통합되고 Dataplex 범용 카탈로그로 제어되는 Cloud Storage의 데이터에 대해 맵리듀스, Hive, 피그, Spark 작업을 실행합니다.

데이터 레이크 현대화

온프레미스 Hadoop 및 Spark 워크로드를 클라우드로 간편하게 마이그레이션하세요. Dataproc을 사용하여 Dataproc Metastore와 통합되고 Dataplex 범용 카탈로그로 제어되는 Cloud Storage의 데이터에 대해 맵리듀스, Hive, 피그, Spark 작업을 실행합니다.

Spark 및 Hadoop을 사용한 대규모 일괄 ETL

엔터프라이즈 일괄 처리

Compute Engine 기반 Dataproc의 Lightning Engine으로 가속화된 Spark 또는 맞춤설정 가능한 Dataproc 클러스터의 맵리듀스를 사용하여 대규모 데이터 세트를 효율적으로 처리하고 변환합니다. 통제된 환경에서 복잡한 ETL 파이프라인을 최적화하여 성능과 비용을 절감합니다.

    엔터프라이즈 일괄 처리

    Compute Engine 기반 Dataproc의 Lightning Engine으로 가속화된 Spark 또는 맞춤설정 가능한 Dataproc 클러스터의 맵리듀스를 사용하여 대규모 데이터 세트를 효율적으로 처리하고 변환합니다. 통제된 환경에서 복잡한 ETL 파이프라인을 최적화하여 성능과 비용을 절감합니다.

      구성 가능한 데이터 과학 및 ML 환경

      대규모 커스텀 데이터 과학

      특정 버전의 Spark, Jupyter, 필요한 ML 라이브러리를 사용하여 목적에 맞게 빌드된 Dataproc 클러스터를 가동하여 대규모 협업의 모델 학습 및 고급 분석을 수행할 수 있습니다. MLOps를 위한 Vertex AI와 통합하세요.


      대규모 커스텀 데이터 과학

      특정 버전의 Spark, Jupyter, 필요한 ML 라이브러리를 사용하여 목적에 맞게 빌드된 Dataproc 클러스터를 가동하여 대규모 협업의 모델 학습 및 고급 분석을 수행할 수 있습니다. MLOps를 위한 Vertex AI와 통합하세요.


      다양한 오픈소스 분석 엔진 실행

      유연한 OSS

      대화형 SQL을 위한 Trino, 고급 스트림 처리를 위한 Flink 또는 기타 특화된 오픈소스 엔진과 함께 Spark 및 Hadoop을 사용해 전용 클러스터를 배포하세요. 모두 Dataproc에서 관리합니다.

      유연한 OSS

      대화형 SQL을 위한 Trino, 고급 스트림 처리를 위한 Flink 또는 기타 특화된 오픈소스 엔진과 함께 Spark 및 Hadoop을 사용해 전용 클러스터를 배포하세요. 모두 Dataproc에서 관리합니다.

      가격 책정

      관리형 클러스터의 Dataproc 가격 책정Dataproc은 사용한 만큼만 지불하는 방식의 가격 책정을 제공합니다. 자동 확장 및 선점형 VM으로 비용을 최적화하세요. Compute Engine 프리미엄 등급은 Lightning Engine을 통해 더 빠른 Spark를 지원합니다.

      주요 구성요소:

      • Compute Engine 인스턴스(vCPU, 메모리)
      • Dataproc 서비스 요금(vCPU-시간당)
      • 영구 디스크


      예:

      각각 2시간 동안 실행된 CPU가 4개이고 노드(기본 1개 + 작업자 5개)가 6개인 클러스터의 비용은 $0.48입니다. Dataproc 요금 = vCPU 수 * 시간 * Dataproc 가격 = 24 * 2 * $0.01 = $0.48

      관리형 클러스터의 Dataproc 가격 책정

      Dataproc은 사용한 만큼만 지불하는 방식의 가격 책정을 제공합니다. 자동 확장 및 선점형 VM으로 비용을 최적화하세요. Compute Engine 프리미엄 등급은 Lightning Engine을 통해 더 빠른 Spark를 지원합니다.

      주요 구성요소:

      • Compute Engine 인스턴스(vCPU, 메모리)
      • Dataproc 서비스 요금(vCPU-시간당)
      • 영구 디스크


      예:

      각각 2시간 동안 실행된 CPU가 4개이고 노드(기본 1개 + 작업자 5개)가 6개인 클러스터의 비용은 $0.48입니다. Dataproc 요금 = vCPU 수 * 시간 * Dataproc 가격 = 24 * 2 * $0.01 = $0.48

      가격 계산기

      리전별 가격 및 수수료를 포함한 월별 Dataproc 비용을 예측해 볼 수 있습니다.

      커스텀 견적

      영업팀에 문의하여 조직에 대한 커스텀 견적을 받아 보세요.

      지금 시작하기

      신규 고객을 위한 $300의 무료 크레딧

      대규모 프로젝트가 있나요?

      Google Cloud 콘솔을 사용하여 Dataproc 클러스터 만들기

      Apache Spark로 Cloud Storage 커넥터 사용

      아키텍처 센터에서 다양한 마이그레이션 주제 및 시나리오에 대한 콘텐츠 리소스를 제공합니다

      Dataproc
      Google Cloud