2024年版【GCP資格の勉強 PDE編】機械学習の教師あり学習(分類、回帰)と教師なし学習(クラスタリング）とは？

2024年版【GCP資格の勉強 PDE編】機械学習の教師あり学習(分類、回帰)と教師なし学習(クラスタリング）とは？について解説します。
（★注意：GCP資格 Professional Data Engineer(PDE)試験の公式テキスト・問題集などを元に独自にまとめたものです）

Google Cloud Platform（GCP）のProfessional Data Engineer（PDE）試験では、機械学習における教師あり学習と教師なし学習の概念と適用についての理解が求められます。

以下に、教師あり学習（分類と回帰）と教師なし学習（クラスタリング）について説明します。

機械学習には、主に教師あり学習と教師なし学習の２種類あります。各タイプは、データをどのように扱うかによって異なります。

各学習方法は、特定の問題やデータの種類に応じて使い分けられます。教師あり学習は明確な目標（ラベル）がある場合に適しており、教師なし学習はデータの構造やパターンを探索する場合に有効です。

教師あり学習は、ラベル付きのトレーニングデータを使用してモデルを学習させる方法です。ここでの「ラベル」とは、各トレーニングデータポイントに対して正解（目的変数）が与えられていることを意味します。

教師なし学習は、ラベルのないデータを使用して、データ内のパターンや構造を発見する方法です。

GCP上での機械学習実装には、AI Platform、AutoML、BigQuery MLなどが利用されます。GCPのサービスを用いて、上記のタイプの機械学習モデルを開発、トレーニング、評価、デプロイできます。

問題： 教師あり学習において、モデルが数値的な連続値を予測するタスクを何と呼びますか？

解答： C. 回帰

解説： 教師あり学習における「回帰」は、数値的な連続値を予測するために使用されます。例えば、不動産の価格や気温の予測など。

問題： 以下のうち、教師なし学習に属する機械学習のタイプはどれですか？

解答： B. クラスタリング

解説： 教師なし学習の「クラスタリング」は、ラベルのないデータを類似性に基づいてグループに分類するプロセスです。

問題： BigQuery MLを使用して機械学習モデルをトレーニングする場合、どのようなデータ前処理が重要ですか？

解答： A. 特徴量エンジニアリングとデータクレンジング

解説： BigQuery MLを使用する際、特徴量エンジニアリング（データの変換、新しい特徴量の作成）とデータクレンジング（欠損値の処理、外れ値の除去）はモデルの性能に大きく影響する重要な前処理手順です。

PDE試験では、教師あり学習と教師なし学習の概念に加えて、データの前処理、特徴量エンジニアリング、モデルの選択、ハイパーパラメータのチューニング、モデルの評価と改善の方法についての理解が求められます。

また、教師あり学習と教師なし学習のモデルが実際のビジネスの問題解決にどのように応用されるかの理解も重要です。

IT起業家

▼AIを使った副業・起業アイデアを紹介♪