【書籍情報】
Vision Transformer入門
片岡 裕雄 (監修)
山本 晋太郎, 徳永 匡臣, 箕浦 大晃, QIU YUE (著)
出版社: 技術評論社 (2022/9/17)
ISBN-13: 978-4297130589
【概要・コメント】
Vision Transformerに興味はずっともっていたが,大量にある論文に目を通すほどの余裕もないので,このようなまとめの書籍を切望していた。
本書は,Computer Visionの世界で今どのような問題が取り組まれ,その中でVision Transformerがどのように活用され,そして既存の深層学習(CNN, Convolutional neural network)とはどのように異なるかを概説している書籍である。
まず,本書を"教科書"と位置付けるのは,かなり無理がある。
機械学習の基本的な概念そして数学的な導入はほとんど書かれていないので,本書を読んで真に理解するためには,別の教科書で事前に知識を得る必要がある。
一方で,Vision Transformerのレビュー書籍として捉える,大変よく出来た書籍だと思う。
もちろん,Computer Vision研究の専門家であれば,日々更新される論文に目を通していて,このような書籍は不要なのだろうが,自分のようなロボット工学を専門としているが,Computer Visionを使いたい人にとっては,このようなレビューが日本語で読めるのは大変ありがたい。
このように鮮度の高い書籍を,日本語で出版してくれる著者らおよび技術評論社には感謝したい。
特に以下の4つの章は,TransformerおよびVision Transformerの概念を理解したい人にとって,重要なヒントを与えてくれるであろう。
- 第1章 TransformerからVision Transformerへの進化
- 第2章 Vision Transformerの基礎と実装
- 第7章 Transformerの謎を読み解く
- 第8章 Vision Transformerの謎を読み解く
個人的にはSelf Attentionを説明した図2.18 Self-Attentionの気持ち(P.48)のあたりは,新しい機械学習の概念をできるだけ平易な表現で伝えようという著者の工夫が感じられ大変素晴らしいと思う。
一方で,第4, 5, 6章あたりは,事実の羅列が続いており,リサーチマップなどで複数の研究の位置付けを明示しようとする努力はされているものの,なかなか内容の構造を読み取るのは難しいというのが本音である。
世の中に,どんなComputer Visionのタスクがあるのか,そして,Vision Transformerという研究がどれほど活発に取り組まれているのかを知るのには,良いかもしれないが,消化不良だと感じてしまう方も多いかもしれない。
そのような消化不良を感じた方は,上記の4つの章だけでも読んでみると良いかもしれない。
以下,本書の中で特に気になった記述である。
- P.125 CNN構造は画像のより局所的な領域の特徴<中略>の学習に強いと知られています。その一方,画像や3次元データの大局的な特徴<中略>の認識などは依然として難しい<中略> その原因の1つに,畳み込み操作を層ごとに増やしていく際に,局所情報と大域情報の両方を持ち続けることが困難ということが挙げられます。
- P.158 構造化された言語と階層構造を持たない画像との対応関係は学習しにくい,また生成結果を評価しにくいという問題があります。これに対応するため<中略>画像の内容をグラフ構造によって表現するScene Graphを提案しました。
- P.160 DALL・E2ではDiffusionモデルで画像生成を行っています。<脚注>Diffusionモデル(拡散モデル)とは,データにノイズを徐々に追加し,ガウシアンノイズとなるようなプロセスと逆のプロセスをモデル化することでデータを生成する手法です。
- P.180 知識の蒸留とは,学習済みのネットワーク(教師ネットワーク)の出力分布を目標の分布として,未学習のネットワーク(生徒ネットワーク)の学習に利用する方法です。
