2024年版、GCP資格 PDE試験の「Apache Beamを用いたCloud Pub/SubデータのBigQueryエンリッチメント」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。
なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!」
GCP PDE問題文
「私たちのチームは、Cloud Pub/Subから送られてくるデータをBigQueryで分析するために、Apache Beamを使用したデータパイプラインを設計しています。このパイプラインは、受信データをBigQueryの静的参照データでエンリッチし、エンリッチされたデータをBigQueryに保存する必要があります。これを効率的に行うためには、どのジョブタイプとトランスフォームを使用すべきでしょうか?」
難解な表現での再記述
(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「Cloud Pub/Subからのデータストリームを受け取り、Apache Beamを用いてこれらのデータをBigQueryの静的参照データセットを使ってエンリッチするデータパイプラインの設計に取り組んでいます。このプロセスでは、エンリッチされたデータをBigQueryに書き込む必要があります。このタスクに最適なジョブタイプとトランスフォームの選択は何ですか?」
問題の解説
- Cloud Pub/Subからのデータを処理し、BigQueryに保存するためのApache Beamパイプラインの設計が必要です。
- このパイプラインはストリーミングデータを扱うため、ストリーミングジョブタイプが適切です。
- データをBigQueryで分析可能な形式に変換し、エンリッチするためには、適切なトランスフォームが必要です。
解決手順の説明
- ストリーミングジョブタイプを使用して、Cloud Pub/Subのデータストリームをリアルタイムで処理します。
- Pub/SubIOを使用してデータを読み込み、BigQueryIOを使用してエンリッチされたデータをBigQueryに書き込みます。
- サイドインプットパターンを使用して、静的参照データを効率的にパイプラインに組み込み、データをエンリッチします。
各用語の説明
- Apache Beam: 複数の実行環境でデータ処理パイプラインを記述するためのオープンソースプログラミングモデル。
- Cloud Pub/Sub: メッセージングとイベント駆動型のアーキテクチャをサポートするリアルタイムメッセージングサービス。
- BigQuery: Google Cloudのスケーラブルでフルマネージドなデータウェアハウスサービス。
- エンリッチ(Enrich): データセットに追加の情報やコンテキストを加えること。
▼IT人材は2030年に国内で79万人, 全世界で「8,500万人」以上不足!
▼世界の平均年収はなんと「1,000万円」以上!
▼自宅 + パソコン + 無料翻訳ツールで「全世界が仕事場!」
AIエンジニア