2024年版【GCP資格の勉強 PDE編】機械学習の教師あり学習(分類、回帰)と教師なし学習(クラスタリング)とは?について解説します。
(★注意:GCP資格 Professional Data Engineer(PDE)試験の公式テキスト・問題集などを元に独自にまとめたものです)
Google Cloud Platform(GCP)のProfessional Data Engineer(PDE)試験では、機械学習における教師あり学習と教師なし学習の概念と適用についての理解が求められます。
以下に、教師あり学習(分類と回帰)と教師なし学習(クラスタリング)について説明します。
機械学習の教師あり学習(分類、回帰)と教師なし学習(クラスタリング)とは?
機械学習には、主に教師あり学習と教師なし学習の2種類あります。各タイプは、データをどのように扱うかによって異なります。
各学習方法は、特定の問題やデータの種類に応じて使い分けられます。教師あり学習は明確な目標(ラベル)がある場合に適しており、教師なし学習はデータの構造やパターンを探索する場合に有効です。
機械学習の教師あり学習
教師あり学習は、ラベル付きのトレーニングデータを使用してモデルを学習させる方法です。ここでの「ラベル」とは、各トレーニングデータポイントに対して正解(目的変数)が与えられていることを意味します。
- 分類:: 目的:カテゴリカルなラベルを持つデータポイントを適切なカテゴリに分類すること。
- 例:メールが「スパム」か「非スパム」かを判断する、画像内のオブジェクトを識別する。
- 評価指標:精度(Accuracy)、リコール(Recall)、F1スコア、混同行列(Confusion Matrix)など。
- 回帰:: 目的:数値的な連続値を予測すること。
- 例:不動産の価格予測、気温予測、株価予測。
- 評価指標:平均絶対誤差(MAE)、平均二乗誤差(MSE)、R2スコアなど。
機械学習の教師なし学習
教師なし学習は、ラベルのないデータを使用して、データ内のパターンや構造を発見する方法です。
- クラスタリング:: 目的:類似性に基づいてデータポイントをグループに分類すること。
- 例:顧客セグメンテーション、文書のトピック分類、遺伝子クラスタリング。
- 手法:K-平均法(K-means)、階層的クラスタリング、DBSCANなど。
- 評価指標:シルエットスコア、クラスタ内の平均距離など。
GCP上での機械学習実装には、AI Platform、AutoML、BigQuery MLなどが利用されます。GCPのサービスを用いて、上記のタイプの機械学習モデルを開発、トレーニング、評価、デプロイできます。
【練習問題】機械学習の教師あり学習(分類、回帰)と教師なし学習(クラスタリング)
練習問題 1
問題: 教師あり学習において、モデルが数値的な連続値を予測するタスクを何と呼びますか?
- A. 分類
- B. クラスタリング
- C. 回帰
- D. 強化学習
解答: C. 回帰
解説: 教師あり学習における「回帰」は、数値的な連続値を予測するために使用されます。例えば、不動産の価格や気温の予測など。
練習問題 2
問題: 以下のうち、教師なし学習に属する機械学習のタイプはどれですか?
- A. 分類
- B. クラスタリング
- C. 回帰
- D. 強化学習
解答: B. クラスタリング
解説: 教師なし学習の「クラスタリング」は、ラベルのないデータを類似性に基づいてグループに分類するプロセスです。
練習問題 3
問題: BigQuery MLを使用して機械学習モデルをトレーニングする場合、どのようなデータ前処理が重要ですか?
- A. 特徴量エンジニアリングとデータクレンジング
- B. ネットワーク最適化
- C. モデルアーキテクチャの設計
- D. クラウドリソースの割り当て
解答: A. 特徴量エンジニアリングとデータクレンジング
解説: BigQuery MLを使用する際、特徴量エンジニアリング(データの変換、新しい特徴量の作成)とデータクレンジング(欠損値の処理、外れ値の除去)はモデルの性能に大きく影響する重要な前処理手順です。
PDE試験対策
PDE試験では、教師あり学習と教師なし学習の概念に加えて、データの前処理、特徴量エンジニアリング、モデルの選択、ハイパーパラメータのチューニング、モデルの評価と改善の方法についての理解が求められます。
また、教師あり学習と教師なし学習のモデルが実際のビジネスの問題解決にどのように応用されるかの理解も重要です。
▼AIを使った副業・起業アイデアを紹介♪