2024年版、GCP資格 PDE試験の「データパイプラインのセキュリティ自動化」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。
なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!」
GCP PDE問題文
「現在、データパイプラインのセキュリティを向上させるために、手動でジョブを実行しています。これらのジョブを自動化するためには、Cloud Storageから非公開情報を含むバッチファイルを毎晩取得し、Cloud Dataproc上のSpark Scalaジョブで処理して、その結果をBigQueryに取り込む必要があります。この作業を安全に自動化するにはどうすれば良いでしょうか?」
難解な表現での再記述
(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「非公開情報を含むバッチファイルを毎晩Cloud Storageから取得し、Cloud Dataprocクラスタ上でSpark Scalaジョブを用いて処理後、BigQueryにデータをデポジットすることでデータパイプラインのジョブを自動化する作業があります。このワークロードをセキュアに運用するために適切なアプローチは何でしょうか。」
問題の解説
- データの流れはCloud StorageからCloud Dataprocへ、そしてBigQueryへと進みます。
- ファイルが非公開であるため、最小権限の原則に基づき、必要最低限のアクセスに制限する必要があります。
- サービス間の連携ではサービスアカウントの使用が推奨されます。
解決手順の説明
- Cloud Storageからのバッチファイルの読み取りとBigQueryへの書き込みが可能なサービスアカウントを使用します。
- このサービスアカウントを使って、非公開情報を含むバッチファイルの安全な処理とデータの安全な転送を実行します。
各用語の説明
- Cloud Storage: Google Cloud上で提供されるオブジェクトストレージサービス。
- Cloud Dataproc: Google Cloud上で提供されるマネージドHadoopおよびSparkクラスタサービス。
- BigQuery: Google Cloud上で提供されるフルマネージドなビッグデータ分析ツール。
IT起業家
▼AIを使った副業・起業アイデアを紹介♪