「2024年版【GCP資格 PDE試験の勉強】: BigQueryデータ型変更の効率的なアプローチ」

2024年版【GCP資格の勉強 PDE編】

2024年版、GCP資格 PDE試験の「BigQueryデータ型変更の効率的なアプローチ」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。

なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!

GCP PDE問題文

「BigQueryテーブル “CLICK_STREAM” において、STRING型の “DT” 列を TIMESTAMP 型に変更する最も効率的な方法は何ですか?」

「CSVファイルからBigQueryのテーブル「CLICK_STREAM」にデータをロードしました。しかし、クリックイベントのタイムスタンプが文字列型で格納されており、これをタイムスタンプ型に変更したいと考えています。手間とコストを最小限に抑える方法は何ですか?」

難解な表現での再記述

(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「BigQuery内に存在する、”CLICK_STREAM” と命名されたテーブルにおいて、現存するデータセットが、原初的データソースであるCSVファイルから取り込まれている状態にあります。このデータセットにおける、特定の列 “DT” は、クリックイベントの時間軸を記録するものであり、現在は文字列型(STRING)として格納されています。しかしながら、データの更なる効果的な処理および分析を促進するためには、この特定の列のデータ型を、時間軸データをより適切に扱うことができるタイムスタンプ型(TIMESTAMP)に変更することが望ましいと考えられます。このデータ型変更を実現するにあたり、労力と費用の両方を可能な限り抑えた最適なアプローチはどのようなものでしょうか?」

問題の解説

  • BigQueryでは、列のデータ型を変更するためには、テーブルを再作成する必要があります。
  • SQLクエリを使ったデータ型の変更や、既存のテーブルを削除して再作成する方法がありますが、後者の方がコスト効率が良いです。
  • データのエクスポートと再読み込みには料金がかかりません。

解決手順の説明

  • CLICK_STREAMテーブルを削除し、DT列がTIMESTAMP型となるように新たにテーブルを作成します。
  • CSVファイルからデータをリロードして、新しいテーブルに格納します。
  • この方法で、データ型の変更を最小限の手間とコストで実現できます。

各用語の説明

  • BigQuery: Google Cloudの強力なデータウェアハウスサービス。
  • CSVファイル: コンマ区切りの値を含むテキストファイル。
  • TIMESTAMP型: 日付と時刻のデータを格納するデータ型。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA