本業でテクノロジー業界の末席を汚している身にとっては看過できない波が来ているようです。
ここ数週間で「碁」の一件を発端にTVニュースでも普通に取り上げられるようになった「Deep Learning」もしくはより広義の「Machine Learning」。
この波が未来を変えてしまうのか、もしくは一過性のバズワードで終わるのかは専門家や研究者ではないので判断がつきませんが、もし前者になった場合にこの技術をより迅速に使いこなせなければならなさそうな身の上なので、今から専門書を買ってぼちぼち勉強している次第です。 とはいえ、まだまだ細かい部分は分からないことだらけなのですが…
…というのは前置きで。
勉強してみるとこのDeep Learningの大枠のしくみは思ったより単純で、ある種の適応フィルターなのです。
フィルターということは、画像の例だとブラーや彩度調整やもっと複雑なPhotoShopやAE系の専用フィルター、音楽だとEQやリバーブやら多々あるVSTエフェクトなどと広い意味では同様なわけで。
またそれをいち早くアートに取り入れている人々もいて、まだ名称は流動的だが"Neural Art"とかそんな感じで呼ばれているようです。
このあたり興味もあるし、ソースコードもいろいろ公開されているので、勉強ついでにちょっとばかり弄ってみました。
ただし、ガチでやろうとするとウチの動画編集マシン程度では歯がたたず、高価なCUDA対応のGPUを複数載せたスーパーマシンが必要になってくるので、ほんのお遊び程度ですが。
お題は与えられた画像の画風を変換するというもの。chainer-goghというものを使用しています。
以下Wikimedia CommonsからPublic Domainの画像を拝借してます。
例えば先日蔵王で撮影した写真。

これ、見た目ゴッホっぽいなぁと思ったので、以下の本物のゴッホの絵と掛け合わせてみる。

結果は。

またはモネの庭写真に

本物のモネの絵を適用すると

結果。

おもしろい。
おそらく普通に人間がアルゴリズムを考えて作ったフィルターだとここまで劇的に絵を変化させるのは難しいでしょう。
問題点は処理時間で、いずれも小さな絵を一枚生成するのに4時間ほどかかってます。CUDAが使えればもっと速く大きな絵が作れるのでしょう。
あと、写真のような写実的な画像生成もまだ無理そうです。
余談で…
この同じ手法を画像ではなく音に適用したら面白いのでは?(ググってみるとやろうとしている人々はいるみたい。)
たとえばサイレント・バイオリンの音をストラディバリの音にしたり、ウチの安物ナイロンギターの音をConde Hermanosの音にしたりとか…Spectral matchingとかの技術でもある程度できるが、もっと本格的な物。
自前でやってもいいのだが、おそらく誰かすでに手がけてるだろうから様子見段階となります。