「2024年版【GCP資格 PDE試験の勉強】: DataprocとCloud Storageを利用したHadoopジョブの最適化」

GCP PDE問題文
- 難解な表現での再記述
問題の解説
解決手順の説明
各用語の説明

2024年版、GCP資格 PDE試験の「DataprocとCloud Storageを利用したHadoopジョブの最適化」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。

なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる！」

GCP PDE問題文

「オンプレミスのクラスターからDataprocとCloud Storageに移行したHadoopジョブで、パフォーマンスの低下が見られます。これらのジョブは複雑な分析を行い、多くのシャッフル操作が含まれており、初期データは平均200?400MBのParquetファイルです。コストを抑えつつパフォーマンスを向上させるために、どのような最適化を行うべきですか？」

難解な表現での再記述

（GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ）
「オンプレミスのクラスターからGoogle CloudのDataprocとCloud Storageに移行した際にパフォーマンスの低下が見られるHadoopジョブに対して、コストに敏感な状況で効率的な最適化を行うための戦略は何ですか？ジョブは複雑で、多くのシャッフル操作を含み、初期データは200?400MBのParquetファイルです。」

問題の解説

コストに敏感であるため、計算リソースの増強は行わない方が良いです。
Parquetはカラム型ファイルで、Sparkで必要なデータのみを読み取ることができるため、ファイルサイズを大きくすることでパフォーマンスを向上させることができます。
一般的に、SparkジョブでParquetファイルを使用する場合、ファイルサイズの目安は1GBです。