機械学習の作業に目途

一通りの解析がようやく終了。台風で外出できなかったので、集中できたのもよかった。

いろいろトライアンドエラーしましたが、K近傍法、LOF、OneClassSVM、CNNの組み合わせ、CNN+GRUあたりに落ち着きそう。

PLSで次元圧縮であたりをつけてみるか、とおもいつつ、さすがに疲れたのでビール片手にラグビーにします。

ディープラーニング勉強会

グーグルの猫でディープラーニングが大きな話題になったのが2012年で、7年たったわけですが、それ以降も世界中でいろんな人たちがアルゴリズムとかモデル、動作環境の改良に取り組んでいて、最近はどうなっているのかを知りたく参加してきました。

新しいモデル、枝刈り、NAS（モデルの自動探索）、複数GPUでの分散処理など、ディープニューラルネットの最近の高速化の動向を知る機会になりました。

　異常検知の世界では、異常データ自体が少ない場合、学習データ不足での誤検知を防ぐためにさまざまなやり方が工夫されているし、FPGAといったハードウェアで高速処理させるため、ハード構成を柔軟に再構成できるアーキテクチャがザイリンクスなどからリリースされるなど、毎日のようにあちこちで新たな動きがある。

　技術の最先端にいる研究開発者は、論文を毎月１００本は読んでいると言いますが、今は面白い時代だなと、うらやましい気持ちです。

生産工程で発生するセンサーデータや、売り上げ実績など時間経過とともに変化する情報を時系列データといいます。

そうしたデータから将来を予測あるいははずれ値を検出したいというニーズに答えるため、半世紀以上前から確率統計に基づく分析方法が考えられてきました。

ディープラーニングが話題になっている現代でも、こうした統計解析の手法はいろいろなところで使われています。私は、学生のころから確率統計の分野は苦手といいますか、あまり興味関心がなかったのですが、こういうきちんとした書籍があり、なにげなく読んでみたら結構よく書かれています。

R言語では R Studio でやってみるといいかもしれない。Pythonでいうところの、Jupyter notebook のようなもので、これを知っているひとなら、それほど違和感はないのではないでしょうか。