2024年版、GCP資格 PDE試験の「DataprocとCloud Storageを利用したHadoopジョブの最適化」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。
なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!」
GCP PDE問題文
「オンプレミスのクラスターからDataprocとCloud Storageに移行したHadoopジョブで、パフォーマンスの低下が見られます。これらのジョブは複雑な分析を行い、多くのシャッフル操作が含まれており、初期データは平均200?400MBのParquetファイルです。コストを抑えつつパフォーマンスを向上させるために、どのような最適化を行うべきですか?」
難解な表現での再記述
(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「オンプレミスのクラスターからGoogle CloudのDataprocとCloud Storageに移行した際にパフォーマンスの低下が見られるHadoopジョブに対して、コストに敏感な状況で効率的な最適化を行うための戦略は何ですか?ジョブは複雑で、多くのシャッフル操作を含み、初期データは200?400MBのParquetファイルです。」
問題の解説
- コストに敏感であるため、計算リソースの増強は行わない方が良いです。
- Parquetはカラム型ファイルで、Sparkで必要なデータのみを読み取ることができるため、ファイルサイズを大きくすることでパフォーマンスを向上させることができます。
- 一般的に、SparkジョブでParquetファイルを使用する場合、ファイルサイズの目安は1GBです。
解決手順の説明
- Parquetファイルのサイズを大きくし、最小でも1GBになるようにします。
- これにより、データの読み込み効率が向上し、パフォーマンスが改善される可能性があります。
- この変更は、Cloud Storageに保存されている初期データの再編成を伴います。
各用語の説明
- Dataproc: Google Cloud上で提供されるマネージドHadoopおよびSparkクラスタを提供するサービス。
- Cloud Storage: Google Cloud上で提供されるオブジェクトストレージサービス。
- Parquet: 効率的なカラム型ストレージフォーマット。
- Hadoop: 分散環境でのデータ処理を行うためのオープンソースソフトウェアフレームワーク。
IT起業家
▼AIを使った副業・起業アイデアを紹介♪