2024年版、GCP資格 PDE試験の「クラウドネイティブな履歴データ処理システムの設計」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。
なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!」
GCP PDE問題文
「BigQuery、Cloud Dataflow、Cloud Dataprocを使用するデータパイプラインで、CSV、Avro、PDF形式のデータを処理し、毎日新しいデータを保存します。このシステムは可用性を最大限に高めることが必要ですが、パフォーマンスは優先事項ではありません。このような要件を満たすため、データストレージはどのように設計するべきですか?」
難解な表現での再記述
(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「BigQuery、Cloud Dataflow、およびCloud Dataprocを用いたデータ処理システムにおいて、CSV、Avro、PDF形式のデータを日々処理し、ストレージする必要があります。システム設計では可用性が最も重要視され、パフォーマンスは二次的な要素です。これらの条件を満たすためのデータストレージ設計戦略は何ですか?」
問題の解説
- CSV、Avro、PDF形式のデータを含むため、リレーショナルデータベースには適さず、オブジェクトストレージが必要です。
- 可用性を最大化するためには、マルチリージョナルCloud Storageバケットを使用するのが適切です。
- これにより、Cloud Dataproc、BigQuery、Compute Engineを使用してデータに直接アクセスできます。
解決手順の説明
- データをマルチリージョナルCloud Storageバケットに保存します。
- Cloud Dataproc、BigQuery、Compute EngineからCloud Storageバケットへの直接アクセスを設定します。
- この方法により、高い可用性を持ちながら、複数のデータ処理ツールからのアクセスが可能になります。
各用語の説明
- Cloud Storage: Google Cloud上で提供されるオブジェクトストレージサービス。
- Cloud Dataproc: Google Cloud上で提供されるマネージドHadoopおよびSparkクラスタを提供するサービス。
- BigQuery: Google Cloud上で提供されるフルマネージドなビッグデータ分析ツール。
- Compute Engine: Google Cloud上で提供されるインフラストラクチャアズアサービス(IaaS)。
IT起業家
▼IT人材は2030年に国内で79万人, 全世界で「8,500万人」以上不足!
▼世界の平均年収はなんと「1,000万円」以上!
▼自宅 + パソコン + 無料翻訳ツールで「全世界が仕事場!」
AIエンジニア