2024年版、GCP資格 PDE試験の「BigQueryでのデータスキャン量の削減」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。
なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!」
GCP PDE問題文
「BigQueryテーブルで特定のデータをタイムスタンプとIDカラムでフィルタリングしていますが、クエリがテーブル全体をスキャンしています。既存のSQLクエリを最小限に変更して、BigQueryによってスキャンされるデータ量をどうやって減らせますか?」
難解な表現での再記述
(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「BigQueryテーブルに対して、特定のタイムスタンプとIDカラムを使用したフィルタリングを行っているSQLクエリが、テーブル全体のスキャンを引き起こしています。既存のクエリの構造を可能な限り維持しつつ、BigQueryによるデータスキャン量をどのように削減すれば良いでしょうか?」
問題の解説
- BigQueryテーブルで特定のデータをフィルタリングする際、テーブル全体のスキャンを引き起こしている問題があります。
- この問題を解決するためには、BigQueryのデータスキャン量を減らす方法を探る必要があります。
- パーティショニングやクラスタリングを適切に設定することで、データスキャン量を削減し、コストの効率化を図ることが可能です。
解決手順の説明
- パーティション分割されたテーブルやクラスタ化されたテーブルを作成し、クエリのスキャン量を減らすために述部フィルタを使用することが効果的です。
- クラスタ化されたテーブルでは、クエリに含まれるクラスタ化された列のフィルタによってスキャンされるブロックが最適化されます。
- パーティション分割されたテーブルでは、パーティショニング列のフィルタがパーティションの削減に役立ち、コスト削減につながります。
各用語の説明
- BigQuery: Google Cloudの強力なデータ分析ツール。
- パーティショニング: テーブルのデータを特定の基準で分割するプロセス。
- クラスタリング: テーブル内のデータを特定のカラムに基づいて最適化するプロセス。
IT起業家
▼AIを使った副業・起業アイデアを紹介♪