2024年版【GCP資格の勉強 PDE編】ワークフロー管理ツールの概要と特徴とは?について解説します。
(★注意:GCP資格 Professional Data Engineer(PDE)試験の公式テキスト・問題集などを元に独自にまとめたものです)
Google Cloud Platform(GCP)のProfessional Data Engineer(PDE)試験では、ワークフロー管理ツールに関する知識が重要です。GCPでは、主に「Cloud Composer」と「Cloud Data Fusion」がデータ分析基盤におけるワークフローを管理するために使用されます。「Cloud Composer」と「Cloud Data Fusion」の特徴と用途について説明します。
Cloud Composer
- 特徴:: Cloud Composerは、Apache Airflowをベースにしたフルマネージド型のワークフロー管理ツールです。
Apache Airflowはオープンソースのワークフロー管理システムで、DAG(Directed Acyclic Graph)を使用してワークフローを定義します。
スケジューリング、監視、失敗時の対処など、ワークフローのライフサイクルを自動化し、管理する機能を提供します。 - 用途:: データ処理タスク(ETLジョブ、データ移動、データ変換など)の自動化とスケジューリング。
GCPのサービス(BigQuery、Dataflow、Dataprocなど)との統合により、データパイプラインの構築と管理に利用されます。
Cloud Data Fusion
- 特徴:: Cloud Data Fusionは、ビジュアルインターフェースを備えたデータ統合サービスです。
ドラッグアンドドロップでデータソースとトランスフォームを組み合わせ、データパイプラインを構築できます。
コードレスの操作が可能であり、簡単にデータを集約、結合、変換できます。 - 用途:: データウェアハウスへのデータの統合、データレイクの構築、ビッグデータ処理のためのパイプライン作成に適しています。
さまざまなデータソース(オンプレミス、クラウド、異なるデータフォーマット)からのデータ統合に使用されます。
PDE試験では、「Cloud Composer」と「Cloud Data Fusion」を使用して複雑なデータワークフローとデータパイプラインをどのように設計、実装、管理するかについての理解が求められます。
また、「Cloud Composer」と「Cloud Data Fusion」がどのようにGCPの他のデータサービスと連携するかについての知識も重要です。実際のビジネスニーズに基づいた効率的なデータワークフローの構築能力が試されます。
IT起業家
▼AIを使った副業・起業アイデアを紹介♪