Vision Transformer入門

ニューラルネットを用いた自然言語処理の分野に革命をもたらした Transformer と

いう構造があります。以前は LSTM のような RNN を使うことが一般的でしたが、

並列化できないので処理が遅いという欠点がありました。Transformer は注意機構

という仕組みを用いることで、並列化を可能にしたほか大域的な関係も捉えられる

ようになり、性能がスゴく向上しました。

その Transformer を画像処理の分野に持ち込んだのが Vision Transformer (ViT)

です。言語と違ってトークンという単位がないので、画像を小さなパッチにわけて

処理するという「ホントにそれでいいのか？」と疑問も感じるところもありますが

従来の CNN ベースの性能を越えたというので話題になりました。

この本は Transformer の基本から ViT の仕組みを詳しく説明しているだけでなく、

さまざまな ViT の派生手法、マルチモーダル処理での活用という話題や、そもそも

Transformer の構造のどういうところが性能向上をもたらしているのか？といった

分析まで幅広く説明されていて「～入門」というタイトルながら入門書のレベルは

はるかに超えています。

それぞれの章で多くの参考文献が挙げられているので Vision Transformer の発展を

踏まえて論文を書こうと思っている研究者にとっても非常に有用です。画像だけで

なく自然言語処理の研究者も読んでおく価値があるでしょう。おススメです。

ナナとトモのブログ