2024年版、GCP資格 PDE試験の「Cloud Dataflowでのデータフィルタリングの実現」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。
なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!」
GCP PDE問題文
「Google Cloudを使ってIoTデータを扱うパイプラインを作成していますが、約2%のデータが破損していることがわかりました。これらの破損データをどのようにフィルタリングすれば良いでしょうか?」
難解な表現での再記述
(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「Google Cloud内でIoTデータのストリーミングパイプラインを構築している際、Cloud Dataflowを介して約2%のデータが破損していることが判明しました。Cloud Dataflowパイプラインでこの破損データをフィルタリングする最適な方法は何ですか?」
問題の解説
- Cloud Dataflowを使用してIoTデータを処理する際に発生するデータ破損を効率的にフィルタリングする方法が必要です。
- Apache Beam SDK のコア並列処理オペレーションであるParDoトランスフォームを追加することで、破損したデータ要素を効果的に破棄できます。
解決手順の説明
- Cloud DataflowパイプラインにParDoトランスフォームを追加します。
- ParDoトランスフォームを使用して、入力データの各要素に対して破損のチェックを行い、破損している要素を破棄します。
- これにより、破損していない有効なデータのみが処理され、データ品質を維持しながらパイプラインの効率を高めることができます。
各用語の説明
- Cloud Dataflow: Google Cloud上で動作するストリーミングとバッチ処理のためのフルマネージドサービス。
- IoTデータ: インターネットに接続されたデバイスから収集されるデータ。
- ParDoトランスフォーム: 入力データの各要素に対して処理を適用するApache Beamの変換。
IT起業家
▼AIを使った副業・起業アイデアを紹介♪