2024年版【GCP資格の勉強 PDE編】Data Lake（データレイク）の概要と特徴とは？

データレイクとは
Google Cloudでデータレイクを構築するメリット
【練習問題】Data Lake（データレイク）の概要と特徴
PDE試験における対策

2024年版【GCP資格の勉強 PDE編】Data Lake（データレイク）の概要と特徴とは？について解説します。
（★注意：GCP資格 Professional Data Engineer(PDE)試験の公式テキスト・問題集などを元に独自にまとめたものです）

Google Cloud Platform (GCP) の Professional Data Engineer (PDE) 資格試験において、データレイク（Data Lake）の概念とその利用法は重要なトピックです。

以下、データレイクに関する基本情報と、Google Cloudでのデータレイク構築のメリットについて説明します。

データレイクとは

データレイクは、大量のデータを一箇所に集めて保存する大きな「デジタル貯水池」のようなものです。この「貯水池」には、さまざまな形式のデータが含まれていて、必要に応じていつでもアクセスして利用できます。例えば、テキストファイル、画像、ビデオ、電子メール、業務システムのデータなど、さまざまなタイプのデータがここに保管されます。

データレイクの重要性

柔軟性: データレイクには、整理されていない生のデータ（整理される前の原データ）も含まれています。データをさまざまな方法で分析できます。
スケーラビリティ: データ量が増えても対応できるように設計されており、大量のデータを保存・管理できます。
多様なデータソース: データレイクは、多種多様なデータソースからのデータを受け入れることができます。異なるタイプのデータを一箇所で統合的に扱うことが可能です。

データレイクの利用法

データ分析: 企業や研究者はデータレイクを利用して、ビジネスの洞察を得たり、新しい発見をしたりするためにデータを分析します。
データ共有: 異なる部門やチーム間でデータを共有しやすくなります。
データ保管: 長期的にデータを安全に保管するために使用されます。

GCPにおけるデータレイク

Google Cloud Platform (GCP) では、データレイクを構築して管理するための多くのツールとサービスを提供しています。データレイクにより、企業や開発者はデータを効率的に保存、アクセス、分析できます。

一元化されたリポジトリ: データレイクは、大量の構造化データ、半構造化データ、非構造化データを保存、処理、保護するための一元化されたリポジトリです。
柔軟なデータ保管: データのサイズや形式に制限がなく、ネイティブ形式でデータを保存し、柔軟に処理できます。
発祥と進化: 2010年にPentahoのCTO、James Dixonにより発案され、その定義は進化してきました。現在では、複数のシステムから未加工のデータを収集して蓄積するリポジトリと解釈されています。
データマートとの違い: 従来のデータマートはデータの型やスキーマ定義に制限がありましたが、データレイクはデータマートとの違いに捉われず、より柔軟なデータ保管が可能です。
デファクトスタンダード: Apache Hadoop環境がデータレイク構築のデファクトスタンダードとして使われています。

Google Cloudでデータレイクを構築するメリット

インフラコストの最適化: HDFSではなくCloud Storageでデータを保管し、ストレージとコンピュートを分離してスケーリングすることで、コストを最適化できます。
運用コストの削減: Cloud Storageを使用することで、インフラ管理、監視、運用保守が不要になります。また、Dataprocを使用してHadoop/Sparkクラスタを構築することで、サーバー調達が不要となり、運用コストが削減されます。
スケーラビリティとアジリティの向上: 迅速なHadoop/Sparkクラスタの起動により、必要な時だけクラスタを起動させることができ、スケーラビリティとアジリティが向上します。
安定したクエリ実行環境: BigQueryを使用してCloud Storage上のHiveパーティションデータを直接検索でき、フェアスケジューリングによりクエリ実行リソースを平準化できます。
データ分析ツールとの連携: Dataproc HubとVertex AIの連携により、Jupyterベースの分析が可能となります。また、BIツールとの連携も容易です（例: BigQueryウェブUI, Googleスプレッドシート、データポータル、Lookerなど）。

【練習問題】Data Lake（データレイク）の概要と特徴

練習問題 1

問題:
VPC Service Controlsを使用する主な目的は何ですか？

A) サービスのレイテンシを低減する
B) データの不正な持ち出しを防ぐ
C) コスト削減を実現する
D) ネットワークの速度を向上させる

正解: B) データの不正な持ち出しを防ぐ

解説:
VPC Service Controlsは、Google Cloud環境内でのアクセス制御とデータの不正な持ち出しを防ぐための機能を提供します。この目的は、データセキュリティとプライバシーの保護を重視しています。

練習問題 2

問題:
VPC Service ControlsとIAM（Identity and Access Management）を併用することの利点は何ですか？

A) ネットワークのパフォーマンス向上
B) サービスコストの削減
C) セキュリティの強化
D) データ処理速度の向上

正解: C) セキュリティの強化

解説:
VPC Service ControlsはIAMと併用することで、より強力なセキュリティを実現します。IAMはIDベースのアクセス制御を提供し、VPC Service Controlsはコンテキストベースの制御を追加することで、セキュリティをさらに強化します。

練習問題 3

問題:
VPC Service Controls内で「サービス境界（Service Perimeter）」の設定が提供する機能は何ですか？

A) サービス間の通信速度を最適化する
B) 特定のサービスへのアクセスを一元管理する
C) 特定の境界内での通信を自由に行い、境界を超える通信を制限する
D) クラウドリソースの使用量を自動的に追跡する

正解: C) 特定の境界内での通信を自由に行い、境界を超える通信を制限する

解説:
サービス境界（Service Perimeter）は、VPC Service Controlsの機能の一つで、特定の境界内での通信を自由に行い、その境界を超える通信を制限することで、セキュリティを強化します。サービス境界の設定により、特定のサービスやリソースへのアクセスを厳密に管理し、不正なデータの移動やアクセスを防ぎます。