sklearnはデーターセットを作成できる。つらつら考えるに
どっかの人権無視でデーターを無限に採取できるわけでもないので
データーの傾向がわかったら そこから盛って置かないと
花の種類を特定するのに
いつも新種のものにばかりなるわけで、
実際のデーター+地蔵作成のデーター
ここから境界がはっきりと見て取れるわけですね
<本日のサンプル>
from sklearn.datasets import make_blobs
import pandas as pd
X, y = make_blobs(
random_state=3,
n_features=2,
centers=2,
cluster_std=1,
n_samples=300)
# 特徴量(X)でデータフレームを作り、分類(y)をtargetの列として追加
df = pd.DataFrame(X)
df["target"] = y
df.head()
make_blobs という関数です
塊やら指定すると作成してくれます。
この傾向としては、偏差値でおなじみの標準偏差でバラついていると考えているようです
jupyterから表示されたときより実行したときのほうが大きくなってます
本では更に5種類の特徴量をもったデーターセットを作成してます。
気になった点がでてきたので、このへんで