2024年版【GCP資格の勉強 PDE編】BigQueryのテーブル設計とは?について解説します。
(★注意:GCP資格 Professional Data Engineer(PDE)試験の公式テキスト・問題集などを元に独自にまとめたものです)
BigQueryのテーブル設計では、インデックスや従来のデータベースのようなチューニングオプションがないため、パフォーマンスの向上にはテーブル設計がとても重要です。主に、パーティション分割とクラスタ化が重要な役割を果たします。
パーティション分割
BigQueryでは、テーブルをパーティション分割することで、クエリのスキャン範囲を限定し、効率的なデータ読み出しを実現します。パーティション分割には主に以下の2種類があります。
- カラムベースのパーティション分割: カラムベースのパーティション分割、はカラムのデータを基にしてテーブルを分割します。
例えば、日付やタイムスタンプ型のカラムを使用してデータを日付単位で分割することが一般的です。
カラムベースのパーティション分割方法は、特定の日付範囲に対するクエリで特に効果的です。 - 取込時間ベースのパーティション分割: 取込時間ベースのパーティション分割はデータの取込時間やストリーミング受信時間を基にしてテーブルを分割します。
取込時間ベースのパーティション分割は、データの取得日時に基づいてクエリを最適化する場合に適しています。
カラム指向のデータベースであるBigQueryでは、`WHERE`句を使用しても指定したカラムのデータをフルスキャンする必要があるため、パーティションによるスキャン範囲の限定がとても重要です。
クラスタ化
- パーティション内でさらにデータを整理するために、クラスタ化を使用します。
- クラスタ化は、一つまたは複数のカラムを基準にしてデータを整理します。
- クラスタ化されたテーブルは、クラスタカラムに基づいてデータを物理的に並べ替え、クエリのパフォーマンスを向上させます。
- 特に、特定のカラムでのフィルタリングやソートが多い場合、クラスタ化によるパフォーマンスの向上が期待できます。
【練習問題】BigQueryのテーブル設計、パーティション分割とクラスタ化
質問 1: BigQueryでのカラムベースのパーティション分割の主な利点は何ですか?
A) データの取得日時に基づいてクエリを最適化できる。
B) 特定のカラムのデータに基づいてクエリのスキャン範囲を限定できる。
C) クエリの実行速度が一律に向上する。
D) データの保存量を減らすことができる。
正解: B) 特定のカラムのデータに基づいてクエリのスキャン範囲を限定できる。
質問 2: BigQueryのクラスタ化において、どのような場合にパフォーマンスの向上が期待できますか?
A) 任意のカラムでのフィルタリングやソートが頻繁に行われる場合。
B) テーブルのデータ量が小さい場合。
C) クエリが単純である場合。
D) 特定のカラムでのフィルタリングやソートが頻繁に行われる場合。
正解: D) 特定のカラムでのフィルタリングやソートが頻繁に行われる場合。
質問 3: BigQueryにおいて、取込時間ベースのパーティション分割はどのようなシナリオで有効ですか?
A) すべてのテーブルに対して一律に有効。
B) データの保存量が非常に大きい場合にのみ有効。
C) データの取得日時に基づいてクエリを最適化する場合に有効。
D) データの更新頻度が非常に高い場合にのみ有効。
正解: C) データの取得日時に基づいてクエリを最適化する場合に有効。
これらの問題は、BigQueryのテーブル設計に関する基本的な理解を確認するためのもので、GCP資格 Professional Data Engineer(PDE)試験のスタイルに沿った形式で作成されています。
まとめ
BigQueryのテーブル設計の要素を適切に使用することで、BigQueryのパフォーマンスを最適化し、クエリの実行コストを削減できます。
また、具体的なテーブル設計は、データの種類やクエリの使用パターンに応じて異なるため、個々の状況に合わせて適切な戦略を選択することが重要です。
最新のベストプラクティスについては、Google Cloudの公式ドキュメントを参照することをお勧めします。
▼IT人材は2030年に国内で79万人, 全世界で「8,500万人」以上不足!
▼世界の平均年収はなんと「1,000万円」以上!
▼自宅 + パソコン + 無料翻訳ツールで「全世界が仕事場!」
AIエンジニア