2024年版、GCP資格 PDE試験の「データパイプラインとBigQueryの最適化戦略」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。
なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!」
GCP PDE問題文
「私たちの会社では、毎時間数千件のトランザクションが更新される巨大な時系列データセットを管理しています。このデータをBigQueryに効率よくコピーし、データサイエンスチームが分析できるようにするための最適な戦略は何でしょうか?」
難解な表現での再記述
(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「時系列トランザクションデータを持つデータパイプラインを構築し、BigQueryでのクエリ実行に最適化する必要があります。どのような戦略を採用すべきでしょうか?」
問題の解説
- 大量の時系列データを効率的に処理するためには、データの非正規化と、データ更新のための効率的な方法が必要です。
- データの非正規化はクエリのパフォーマンスを向上させ、データ分析を容易にします。
- 更新ではなく追加(APPEND)を使用することで、データセットのサイズを効率的に管理し、パフォーマンスを最大化することができます。
解決手順の説明
- データを非正規化することで、クエリの実行速度を向上させ、データサイエンスチームが簡単に分析できるようにします。
- ステータスの更新をBigQueryのAPPEND機能を使用して行うデータパイプラインを開発します。これにより、データセットのサイズが効率的に管理され、パフォーマンスが向上します。
- データセットの日次スナップショットをCloud Storageに保存し、BigQueryの外部データソースとして使用することも検討します。これにより、データセットのフレキシビリティとアクセス性が向上します。
各用語の説明
- BigQuery: Google Cloudの高速データウェアハウスサービス。
- 非正規化: データを複数のテーブルに分割せずに、一つのテーブルに統合すること。
- APPEND: 既存のデータセットに新しいデータを追加する操作。
IT起業家
▼AIを使った副業・起業アイデアを紹介♪