「2024年版【GCP資格 PDE試験の勉強】: データパイプラインのセキュリティ自動化」

2024年版【GCP資格の勉強 PDE編】

2024年版、GCP資格 PDE試験の「データパイプラインのセキュリティ自動化」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。

なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!

GCP PDE問題文

「現在、データパイプラインのセキュリティを向上させるために、手動でジョブを実行しています。これらのジョブを自動化するためには、Cloud Storageから非公開情報を含むバッチファイルを毎晩取得し、Cloud Dataproc上のSpark Scalaジョブで処理して、その結果をBigQueryに取り込む必要があります。この作業を安全に自動化するにはどうすれば良いでしょうか?」

難解な表現での再記述

(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「非公開情報を含むバッチファイルを毎晩Cloud Storageから取得し、Cloud Dataprocクラスタ上でSpark Scalaジョブを用いて処理後、BigQueryにデータをデポジットすることでデータパイプラインのジョブを自動化する作業があります。このワークロードをセキュアに運用するために適切なアプローチは何でしょうか。」

問題の解説

  • データの流れはCloud StorageからCloud Dataprocへ、そしてBigQueryへと進みます。
  • ファイルが非公開であるため、最小権限の原則に基づき、必要最低限のアクセスに制限する必要があります。
  • サービス間の連携ではサービスアカウントの使用が推奨されます。

解決手順の説明

  • Cloud Storageからのバッチファイルの読み取りとBigQueryへの書き込みが可能なサービスアカウントを使用します。
  • このサービスアカウントを使って、非公開情報を含むバッチファイルの安全な処理とデータの安全な転送を実行します。

各用語の説明

  • Cloud Storage: Google Cloud上で提供されるオブジェクトストレージサービス。
  • Cloud Dataproc: Google Cloud上で提供されるマネージドHadoopおよびSparkクラスタサービス。
  • BigQuery: Google Cloud上で提供されるフルマネージドなビッグデータ分析ツール。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA