「2024年版【GCP資格 PDE試験の勉強】: 大規模テキストデータの効率的なCloud Storage設計」

2024年版【GCP資格の勉強 PDE編】

2024年版、GCP資格 PDE試験の「大規模テキストデータの効率的なCloud Storage設計」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。

なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!

GCP PDE問題文

「100TBもの大量のテキストファイルをGoogle Cloudに保存する方法を考えています。これらのファイルは表計算形式で、多くのユーザーが同時にデータを探したり問い合わせたりする必要があります。コストを抑えつつ、速くデータを見つけられるようにするにはどうしたらいいでしょうか?」

難解な表現での再記述

(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「100テラバイトに及ぶCSV形式のテキストファイル群をGoogle Cloud上に格納するためのストレージ戦略を策定しています。これらのファイルに対して、複数のユーザーが異なるクエリエンジンを用いてデータを照会する際のコストを最小化することが課題です。最もコスト効率の良いストレージサービスとスキーマ設計はどれを選択すべきか、その方策を求めています。」

問題の解説

  • Google Cloud上で大容量のテキストデータを扱う際のストレージ設計が必要です。
  • 複数のユーザーによるデータの集約値の照会に対してコストを最小化することが目標です。
  • データアクセスの効率とコスト管理のバランスを取る必要があります。

解決手順の説明

  • Cloud Storageをデータストレージとして使用し、BigQueryでの照会に最適化します。
  • BigQueryにパーマネントテーブルを作成し、Cloud Storageからのデータをリンクすることで、照会コストを削減します。
  • データのパーティション分割やクラスタリングを適切に設計することで、クエリのパフォーマンスを向上させます。

各用語の説明

  • Cloud Storage: Google Cloudのオブジェクトストレージサービスで、大量のデータを保存するのに適しています。
  • BigQuery: Google Cloudのフルマネージドな大規模データウェアハウスサービスで、SQLによるデータ分析が可能です。
  • パーティショニングとクラスタリング: データを効率的に整理して照会するためのBigQueryの機能。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA