「2024年版【GCP資格 PDE試験の勉強】: BigQueryのパーティショニングでコスト削減」

2024年版【GCP資格の勉強 PDE編】

2024年版、GCP資格 PDE試験の「BigQueryのパーティショニングでコスト削減」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。

なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!

GCP PDE問題文

「私たちの会社では、過去3年間の履歴データをBigQueryに保存し、毎日新しいデータを追加しています。データサイエンスチームが日付でデータをフィルタリングする際に、BigQueryがテーブル全体をスキャンしていることに気づきました。これが請求額の増加につながっています。クエリの実行機能を維持しながら、どのようにしてコストを削減できますか?」

難解な表現での再記述

(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「ある組織では、BigQueryに保存されている過去3年間の履歴データに対し、日次で新たなデータが追加されるデータパイプラインを運用しています。データサイエンスチームが特定の期間(30日や90日)のデータに対してクエリを実行する際、テーブル全体がスキャンされていることが判明し、これが請求額の急増に繋がっています。SQLクエリの実行能力を保持しつつ、コスト効率を最大化するためには、どのような手段を講じるべきでしょうか?」

問題の解説

  • BigQueryでの大規模なデータスキャンが請求額の増加につながっています。
  • データのフィルタリング効率を向上させ、コストを削減するためには、適切なテーブル分割(パーティショニング)が有効です。
  • 日付に基づいてデータをフィルタリングする必要性があるため、TIMESTAMP型またはDATE型を含む列でテーブルを分割するのが最適です。

解決手順の説明

  • BigQueryでDDL(データ定義言語)を使用して、既存のテーブルを再作成します。
  • TIMESTAMP型またはDATE型の列を使用してテーブルをパーティション化し、特定の日付範囲のデータに対してのみクエリが実行されるようにします。
  • これにより、不要なデータのスキャンが減少し、クエリコストが削減されます。

各用語の説明

  • BigQuery: Google Cloudのスケーラブルでフルマネージドなデータウェアハウスサービス。
  • パーティショニング: テーブルを特定の基準に従って論理的なセグメントに分割すること。
  • DDL (データ定義言語): データベースのスキーマや構造を定義するための言語。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA