2024年版【GCP資格の勉強 PDE編】BigQuery Data Transfer Service(DTS)とは?について解説します。
(★注意:GCP資格 Professional Data Engineer(PDE)試験の公式テキスト・問題集などを元に独自にまとめたものです)
Google Cloud Platform(GCP)のProfessional Data Engineer(PDE)試験では、BigQuery Data Transfer Service(DTS)に関する知識が重要です。
BigQuery DTSは、さまざまなデータソースからBigQueryにデータを自動的に転送するためのサービスです。
以下に、BigQuery DTSの概要と、特に考慮すべき制約事項について説明します。
BigQuery Data Transfer Serviceの概要
BigQuery DTSは、Google Cloud Platform(GCP)のBigQueryにデータを自動で移行するためのサービスです。
例えば、あなたの会社で販売データや顧客データなどをExcelやCSVファイルで管理しているとします。これらのデータをBigQueryに移行したい場合、BigQuery DTSを使えば、手動でデータを移行する手間を省くことができます。
BigQuery DTSでは、あらかじめ設定したスケジュールに基づいて、データの移行を自動で実行します。そのため、毎日、毎週、毎月など、定期的にデータを移行したい場合に便利です。
また、BigQuery DTSでは、さまざまなデータソースからデータを移行できます。例えば、Google Cloud StorageやAmazon S3などのクラウドストレージ、SalesforceやOracleなどのデータベース、TwitterやFacebookなどのSNSなど、さまざまなデータソースに対応しています。
- 対応データソース:Googleのサービス(YouTube, Google Adsなど)
Cloud Storage
Amazon S3(CSV形式でのエクスポート)
Amazon Redshift
Teradata
その他のサードパーティのコネクタ(GCP Marketplaceを通じて利用可能) - 自動データ転送:BigQuery DTSは定期的にデータソースからBigQueryへのデータ転送を自動化できます。BigQuery DTSにより、データを手動で移動する手間が省けます。
BigQuery DTSの制約事項
- ロケーションを跨いだデータセットのJOIN制約:BigQueryでは、異なるロケーション(地域)にあるデータセット間でのJOINはできません。データ転送時には、データの目的地のロケーションに注意する必要があります。
- 異なるプラットフォーム間のコスト:例えば、Amazon S3からBigQuery DTSを使用してデータを転送する場合、追加のコストが発生する可能性があります。データ転送の際のネットワーク使用料や、ストレージコストなどを考慮します。
- データのプレ処理加工の制限:BigQuery DTSを使用すると、データソースから直接データを転送することはできますが、データのプレ処理や加工を行うことはできません。プレ処理が必要な場合は、データ転送前に他のツール(例: Dataflow)を使用して処理を行う必要があります。
【練習問題】BigQuery Data Transfer Service(DTS)
練習問題1
問題: BigQuery DTSを使用してYouTube AnalyticsデータをBigQueryに転送する場合、最も重要な考慮事項は何ですか?
- A. 転送されるデータのフォーマット
- B. 転送の頻度
- C. データのプライバシーとセキュリティ
- D. データのロケーション
解答: C. データのプライバシーとセキュリティ
解説: BigQuery DTSを使用する際には、データのプライバシーとセキュリティが重要です。特に、YouTube Analyticsデータには機密性の高い情報が含まれる可能性があるため、データ転送時のセキュリティ対策に注意する必要があります。
練習問題2
問題: BigQuery DTSを使用してAmazon S3からデータを転送する際に検討すべき主要な要因は何ですか?
- A. データの圧縮率
- B. 転送中のデータ変換
- C. 追加のコスト
- D. データの同期速度
解答: C. 追加のコスト
解説: Amazon S3からBigQueryにデータを転送する場合、追加のコストが発生する可能性があります。ネットワーク使用料やストレージコストなどを考慮する必要があります。
練習問題3
問題: BigQuery DTSを使用してデータを転送する際の制約事項の一つは何ですか?
- A. データの即時利用可能性
- B. データのプレ処理の制限
- C. BigQueryへのデータの自動転送
- D. 転送されるデータのセキュリティ
解答: B. データのプレ処理の制限
解説: BigQuery DTSはデータソースから直接データを転送することはできますが、データのプレ処理や加工を行う機能は限られています。プレ処理が必要な場合は、他のツールを使用する必要があります。
最新情報とベストプラクティス
Googleは、BigQuery DTSの機能を継続的に拡張しています。DTSの機能には、新しいデータソースのサポート追加や、データ転送の効率化が含まれます。
PDE試験の準備にあたっては、GCPの公式ドキュメントや最新のリリースノートを確認することが重要です。また、コスト管理やデータセキュリティの面でも、最新のベストプラクティスに従うことが求められます。
▼AIを使った副業・起業アイデアを紹介♪