「2024年版【GCP資格 PDE試験の勉強】: ETLジョブの移行とデータ検証の最適なアプローチ」

2024年版【GCP資格の勉強 PDE編】

2024年版、GCP資格 PDE試験の「ETLジョブの移行とデータ検証の最適なアプローチ」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。

なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!

GCP PDE問題文

「BigQuery上でETLジョブを実行した後、新しいジョブの出力が元のジョブと同一であることをどのように確認すればよいですか?」

難解な表現での再記述

(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「私たちの会社では、ETLジョブをBigQuery上に移行した後、新旧のジョブ出力が一致しているかを確認する必要があります。しかし、比較するための主キー列が存在しません。どのようにしてデータの整合性を確認すれば良いでしょうか?」

問題の解説

  • ETLジョブの移行後、データの一致を確認するためには、全てのデータを比較する必要があります。
  • 主キー列がない場合は、ハッシュ関数を使用してデータセット全体のハッシュ値を計算し、元のデータと比較するのが有効です。
  • BigQueryコネクタを使用して、各テーブルのデータを読み取り、ハッシュ値を計算して比較します。

解決手順の説明

  • BigQuery Hadoop コネクタを使用して、各テーブルからデータを読み取ります。
  • データセットの非タイムスタンプ列からハッシュ値を計算します。これにより、データの完全性と一致性を確認できます。
  • 生成されたハッシュ値を元のデータセットのハッシュ値と比較し、一致するかどうかを確認します。

各用語の説明

  • BigQuery: Google Cloudの強力なデータウェアハウスサービス。
  • ETL (Extract, Transform, Load): データを取り出し、変換し、別のシステムに格納するプロセス。
  • BigQuery Hadoop コネクタ: BigQueryとHadoopやSparkを連携させるためのツール。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA