2024年版、GCP資格 PDE試験の「Dataprocを利用した統計モデル構築のコスト最適化」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。
なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!」
GCP PDE問題文
「顧客の再購入の可能性を判断するための統計モデルをCloud Storageに格納されたデータを使ってApache Spark上で実行したいと考えています。このジョブをDataprocで実行し、結果をBigQueryに出力する計画です。毎週実行されるこのワークロードは、15ノードのクラスタで約30分で実行可能です。しかし、チームはコストに敏感なため、プリエンプティブなVMを使用したいと考えています。このワークロードに最もコスト効率の良いクラスタの構築方法を教えてください。」
難解な表現での再記述
(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「Apache Sparkを使用してCloud Storageに格納されたデータで統計モデルを実行し、Dataprocを用いて処理し、BigQueryに結果を出力するワークロードがあります。このワークロードは毎週実行され、15ノードのクラスタで約30分で完了します。コストを抑えるために、主にプリエンプティブVMを使用し、非プリエンプティブVMは限定的に使用したいと考えています。この要件に基づく最もコスト効率の良いクラスタ構築方法を選択してください。」
問題の解説
- コスト最適化の観点から、プリエンプティブVMを使用する方法が最適です。
- プリエンプティブVMは、通常のVMよりもずっと安価ですが、他のタスクがリソースを必要とする場合に中断される可能性があります。
- このワークロードは約30分で実行可能であるため、一時的な使用に適しており、プリエンプティブVMの使用が可能です。
解決手順の説明
- クラスタにプリエンプティブVMを使用します。
- これにより、コストを抑えつつ、必要な計算リソースを確保できます。
- プリエンプティブVMは中断される可能性があるため、非プリエンプティブVMを最小限に保ち、コストとリスクのバランスを取ります。
各用語の説明
- Dataproc: Google Cloud上で提供されるマネージドHadoopおよびSparkクラスタを提供するサービス。
- プリエンプティブVM: 一時的に利用可能な仮想マシンで、通常よりも安価ですが、他のタスクがリソースを必要とする場合に中断される可能性があります。
- BigQuery: Google Cloud上で提供されるフルマネージドなビッグデータ分析ツール。
- Apache Spark: 分散処理を行うためのオープンソースのクラスタコンピューティングフレームワーク。
IT起業家
▼AIを使った副業・起業アイデアを紹介♪