2024年版、GCP資格 PDE試験の「Cloud Composerを活用したデータパイプラインの自動化」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。
なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!」
GCP PDE問題文
「Google Cloud上で稼働する複数のデータ処理ジョブを自動で実行したいと考えています。これらのジョブにはCloud DataprocとCloud Dataflowが含まれ、毎日実行される必要があります。どのツールを使って、これらのプロセスを簡単かつ効率的に自動化できますか?」
難解な表現での再記述
(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「Google Cloudプラットフォーム上に構築されたマルチステップのデータパイプラインにおいて、Cloud DataprocとCloud Dataflowの両方を含むジョブ群の日次自動実行の自動化を図る必要があります。パイプライン内の各ジョブ間には複数の依存関係が存在し、マネージドサービスを最大限利用してオペレーションを最適化したいと考えています。この要件を満たすためには、どのGoogle Cloudサービスを選択するべきですか?」
問題の解説
- Google Cloudのマネージドサービスを使用して、データパイプラインの自動化を実現する方法を探しています。
- Cloud DataprocとCloud Dataflowを含む複雑なデータ処理ジョブを毎日自動で実行する必要があります。
- ジョブ間には依存関係があり、これらを効率的に管理するための適切なツールが必要です。
解決手順の説明
- Cloud Composerを使用してDirect Acyclic Graph(DAG)を作成し、これによってジョブのスケジュールと監視を行います。
- Cloud ComposerはApache Airflowベースのサービスで、複数のジョブ間の依存関係を管理し、それらを自動で実行するスケジュールを設定するのに適しています。
- これにより、Cloud DataprocとCloud Dataflowのジョブを日次で自動化し、効率的なデータパイプラインの運用が可能になります。
各用語の説明
- Cloud Dataproc: HadoopとSparkのマネージドサービスで、ビッグデータ処理のためのクラスタ管理とジョブの実行を簡単に行える。
- Cloud Dataflow: Apache Beamベースのマネージドサービスで、リアルタイムとバッチデータの両方の処理が可能。
- Cloud Composer: Apache Airflowベースのワークフローオーケストレーションツールで、複雑なジョブのスケジュール設定と監視を簡単に行える。
IT起業家
▼AIを使った副業・起業アイデアを紹介♪