【人工知能(AI)】衛星データとPythonで不法投棄を予測する

【人工知能(AI)】衛星データとPythonで不法投棄を予測する

この例では、架空の衛星データを生成し、それを基に不法投棄の可能性を分析する方法を説明します。

サンプルデータの生成

まずは、サンプルデータを生成します。ここでは、衛星データとして、特定の地域の画像データの特徴量(例えば、緑地の割合、建物の密度、水域の存在など)と、過去の不法投棄発生情報を模擬的に作成します。

import pandas as pd
import numpy as np

# サンプルデータの数
num_samples = 1000

# 衛星データの特徴量(緑地の割合、建物の密度、水域の存在)
greenery = np.random.rand(num_samples)  # 緑地の割合(0〜1の範囲)
buildings = np.random.rand(num_samples)  # 建物の密度(0〜1の範囲)
water = np.random.rand(num_samples)  # 水域の存在(0〜1の範囲)

# 過去の不法投棄情報(0: なし, 1: あり)
illegal_dumping = np.random.randint(0, 2, num_samples)

# DataFrameに変換
df = pd.DataFrame({
    'Greenery': greenery,
    'Buildings': buildings,
    'Water': water,
    'IllegalDumping': illegal_dumping
})

print(df.head())
   Greenery  Buildings     Water  IllegalDumping
0  0.927315   0.578882  0.486985               0
1  0.673409   0.778274  0.087242               1
2  0.562776   0.702388  0.101363               1
3  0.259367   0.501754  0.473892               0
4  0.361350   0.690268  0.996747               1

データの可視化

データを可視化して、不法投棄の発生パターンを理解しやすくします。

import matplotlib.pyplot as plt

# 不法投棄の有無による特徴量の分布をプロット
plt.figure(figsize=(12, 6))
plt.scatter(df['Greenery'], df['Buildings'], c=df['IllegalDumping'], cmap='viridis', alpha=0.5)
plt.title('Satellite Data Features by Illegal Dumping')
plt.xlabel('Greenery')
plt.ylabel('Buildings')
plt.colorbar(label='Illegal Dumping (1 = Yes, 0 = No)')
plt.show()
不法投棄の有無による特徴量の分布をプロット

予測モデルの構築

不法投棄発生の予測モデルを構築します。ここでは、簡単な分類モデル(ロジスティック回帰)を使用します。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 説明変数と目的変数の分離
X = df.drop('IllegalDumping', axis=1)
y = df['IllegalDumping']

# 訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# モデルのインスタンス化と訓練
model = LogisticRegression()
model.fit(X_train, y_train)

# 予測と評価
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy:.2f}")
Accuracy: 0.52

この基本的な流れを参考にして、より複雑な衛星データや、異なる種類の機械学習モデルを使って分析できます。

分類モデルの中でロジスティック回帰を使用する理由

分類モデルの中でロジスティック回帰を使用する理由は次の通りです。

1. 問題の性質

まず、問題の性質に注目します。不法投棄の予測は、「発生する」または「発生しない」という2つのカテゴリーに分類する問題です。ロジスティック回帰は二値分類問題に適しており、このような「はい/いいえ」の形式の質問に対する答えを予測するのに最適です。

2. 理解しやすさ

ロジスティック回帰は、その結果が理解しやすく、解釈可能です。モデルが出力する確率は、各特徴量が目的変数にどのように影響を与えるかを示し、データの背後にある関係を明確に理解するのに役立ちます。

3. 計算効率

ロジスティック回帰は計算効率が高く、比較的少ない計算リソースで高速に結果を得ることができます。大規模なデータセットやリアルタイムの予測には不向きな場合もありますが、サンプルデータセットでの概念実証や初期の分析には適しています。

4. 基準点としての有用性

ロジスティック回帰は、より複雑なモデルを試す前の基準点として役立ちます。単純なモデルで十分な精度が得られる場合、より複雑なモデルへの移行は必ずしも必要ではありません。逆に、精度が不十分な場合は、ランダムフォレストや勾配ブースティングなどのより高度なアルゴリズムの導入を検討できます。

5. 強い前提が不要

ロジスティック回帰は、データの分布に関して線形性のような強い前提を必要としません。これにより、さまざまなタイプのデータに柔軟に適用できます。

これらの理由から、ロジスティック回帰は不法投棄予測の初期モデルとして選択されることが多いです。ただし、実際のプロジェクトでは、データの性質や要件に応じて最適なモデルを選択する必要があります。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA