それでは、いよいよ訓練に・・・ | python3Xのブログ

python3Xのブログ

ここでは40代、50代の方が日々の生活で役に立つ情報や私の趣味であるプログラム、Excelや科学に関する内容で投稿する予定です。

ここでは、実際にスパムメールを訓練し、スパムとハムを正しく分類できてるかを

訓練時の正解率と

テスト時の適合率と再現率によって

その性能を確認する

陽性=正解(または正解と判断したもの)

陰性=間違い(または間違いと判断したもの)

●:正解

●:正解と判断したが間違っていたもの

間違いと判断したが正解であったもの

陰性           |    陽性

a, y, t, n       |    j

------------------↑適合率(1/3)

m ℳ          | m M

      ←再現率(2/4)

結果のみ
===========================================================================
[[  6   0   0   0   0   0   0   0   0   0   0]
 [103   8  11   9   3   1   3   0   2   3   0]
 [ 61   2   0   1   3   5   1   3   1   0   3]]
{'s': 7, 'the': 2, 'all': 6, 'of': 3, 'url': 5, 'group': 10, 'christian': 9, 'and': 1, 'on': 8, 'to': 4}
[CV]  ................................................................
[CV] .................................. , score=0.98375, total=   0.0s
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s
[CV]  ................................................................
[CV] .................................... , score=0.985, total=   0.0s
[Parallel(n_jobs=1)]: Done   2 out of   2 | elapsed:    0.1s remaining:    0.0s
[CV]  ................................................................
[CV] ................................... , score=0.9925, total=   0.1s
[Parallel(n_jobs=1)]: Done   3 out of   3 | elapsed:    0.3s finished

交差検証のスコアは
0.9870833333333334
テストセットの適合率: Precision: 94.90%
テストセットの再現率: Recall: 97.89%