memomemoφ(.. )



次のような学習データ集合 Dが与えられた場合を考える。

\mathcal{D} = \{ (\mathbf{x}_i, c_i)|\mathbf{x}_i \in \mathbb{R}^p, c_i \in \{-1,1\}\}_{i=1}^n

ci は 1 もしくは -1の値を持つ変数で \mathbf{x}_i が属したクラスを意味する。 \mathbf{x}_i p次元の特徴ベクトルである。

このような学習データが与えられた時 ci = 1であるいくつかの点と ci = - 1であるいくつかの点とを分離する

超平面をさがすのが共通の目標であるが、他のアルゴリズムと差別化される特徴は

ただいくつかの点を分離する超平面を捜すことで終わるのではなく、いくつかの点を分離することができる


幾多の候補平面の中でマージンが最大になる(maximum-margin) 超平面を探す点にある。ここで marginとは、超平面から各いくつかの点に至る距離の最小値を言い、この marginを最大にしながらいくつかの点を二つのクラスで分類しようとすると、結局クラス1に属するいくつかの点との距離の中の最小値とクラス -1に属するいくつかの点との距離の中の最小値とが等しくなるように超平面が位置しなければならず、このような超平面をマージン最大の超平面という。結論として、SVMは二つのクラスに属しているいくつかの点を分類する幾多の超平面の中で、最大限に二つのクラスのいくつかの点と距離を維持するものを探すアルゴリズムといえる。



wを重みづけ、xを入力信号(0から1まで)、しきい値をhとするとき、Hをヘヴィサイドの階段関数とするとき、

H(\sum_{i=1}^N w_ix_i-h)

で表される。



(-\infty, \infty) \rightarrow (0,1) の単調増加連続関数で、1つの変曲点を持つ。

y = 0y = 1 を漸近線に持ち、

\lim_{x \rightarrow \infty} \varsigma _a (x) = 1
\lim_{x \rightarrow -\infty} \varsigma _a (x) = 0
\lim_{x \rightarrow \pm \infty} \dot \varsigma _a (x) = 0

である。

x = 0 では

\varsigma _a (0) = 1 / 2
\dot \varsigma _a (0) = a / 4
\ddot \varsigma _a (0) = 0

である。つまり、変曲点は (0,1 / 2) である。

また、(0,1 / 2) を中心に点対称である。つまり、 \varsigma_a (x) - 1/2 は奇関数であり、

 \varsigma_a (-x) = 1 -  \varsigma_a (x)

を満たす。

逆関数は、

\varsigma _a ^{-1}  (y) = \frac{1}{a} \ln \left( \frac{ y }{ 1 - y } \right) = \frac{1}{a} \operatorname{logit} y

と、ロジット関数で表せる。