2024年版、GCP資格 PDE試験の「KafkaクラスタのGoogle Cloudへのレプリケーション」に関する練習問題を勉強していきましょう。平易な問題文 → 実践的な問題文 → 問題の解き方・解説 → 用語説明の順番で効率的に学べます。
なお、GCP資格のPDE練習問題を一気に勉強したい方は、下記リンクでまとめて学習できます。
「2024年版【GCP資格 PDE試験の練習問題】なんと5時間で学べる!」
GCP PDE問題文
「オンプレミスのApache Kafkaクラスタがあり、Webアプリケーションのログを含んでいます。これらのデータをGoogle Cloudに移して、BigQueryやCloud Storageで分析したいです。しかし、Kafka Connectプラグインの導入を避けたいので、ミラーリングを使ったレプリケーション方法が必要です。どうすればこれを達成できますか?」
難解な表現での再記述
(GCPのPDE試験問題のような難解な表現での出題文。内容は上記問題文と同じ)
「オンプレミス環境に設置されたApache Kafkaクラスタを持ち、Webアプリケーションのログデータがストリーミングされています。このデータをGoogle Cloudプラットフォームにレプリケートし、BigQueryやCloud Storageを利用して分析を行う必要があります。Kafka Connectプラグインの導入を避けつつ、効率的なデータミラーリング手法を検討する必要があります。どのようなアプローチが最適でしょうか?」
問題の解説
- オンプレミスのKafkaクラスタからGoogle Cloudへのデータの移行方法を模索しています。
- Kafka Connectプラグインの導入を避けるために、ミラーリングを用いたデータレプリケーションを検討しています。
- Google Cloudでのデータ分析のために、BigQueryやCloud Storageへの効率的なデータ移行が必要です。
解決手順の説明
- Compute EngineのVMインスタンス上にKafkaクラスタを展開し、オンプレミスのクラスタとミラーリングを行います。
- このミラーリングされたクラスタから、DataprocクラスタやDataflowジョブを使用して、データを読み取り、Cloud Storageに書き込みます。
- このプロセスにより、オンプレミスのKafkaクラスタからGoogle Cloudへのデータ移行を効率的に行い、BigQueryやCloud Storageでの分析を実現します。
各用語の説明
- Apache Kafka: 分散ストリーミングプラットフォームで、大規模なデータのリアルタイム処理に使用されます。
- Google Cloud Dataflow: リアルタイムとバッチ処理の両方をサポートするマネージドサービスです。
- Google Cloud Dataproc: ビッグデータ処理のためのマネージドHadoopとSparkサービスです。
- Compute Engine: Google Cloud上での仮想マシンを提供するサービスです。
IT起業家
▼AIを使った副業・起業アイデアを紹介♪