画像と文章を同時に認識するAI技術 「マルチモーダル学習」、商用化 | ボルタのブログ

ボルタのブログ

色んな記事をまとめ、自分の考えであるコメントをつけるそんなブログです

本文は、3月17日の日経クロステックの要旨及びそれに関するコメントです

要旨

 画像やテキストなど異なる種類の情報を基に判断を下すAIが開発できる「マルチモーダル学習」は、AIにおける次の有望株だ。日本でもスタートアップであるストックマークが、業務アプリケーションにマルチモーダル学習を応用した。

 マルチモーダル学習のモーダル(modal)とは、情報の形式や種類という意味だ。1つの機械学習モデルに対して画像やテキストといった異なる種類のデータを学習させることで、その両方を勘案して判断を下す機械学習モデルを開発する。通常の機械学習モデルは、画像認識モデルや音声認識モデルといった具合に、基本的に1種類の情報しか扱えない。

 米グーグル(Google)でAI開発を指揮するジェフ・ディーン(Jeff Dean)シニアフェローも、マルチモーダル学習に関して最も期待していると語っている。グーグルは2019年8月にマルチモーダル学習用のソフトウエアフレームワークである「MediaPipe」をオープンソースソフトウエアとして公開している。マルチモーダル学習はグーグルも期待するAIの有望株ということだ。

 

・日本での利用事例

 AIスタートアップ企業[1]のストックマークは2020年1月に、営業支援のSaaS(ソフトウエア・アズ・ア・サービス)である「Asales」に、マルチモーダル学習によって開発した「スライドファインダー」という機能を実装した。PowerPointファイルに含まれる画像とテキストの内容を同時に認識し、両者の情報に基づいて各スライドの内容を分類する。

 具体的には、スライドにグラフ画像や数字が含まれていたら「統計情報が載ったスライド」と判断するし、スライドがサービスの導入事例を文章で説明するものだったら「導入事例のスライド」と判断する。ユーザーは「統計情報が載ったスライド」といった具合に、PowerPointスライドの内容を検索できるようになる。

 「企業には営業提案用プレゼンテーションなど様々なPowerPointファイルが蓄積されているが、あまり再利用されてこなかった。PowerPointファイルのどこにどのようなスライドが存在するのか、探すのが難しかったためだ。スライドファインダーを使えば内容によってスライドを検索できるようになるため、再利用が容易になる」。ストックマークの有馬幸介CTO(最高技術責任者)はそう説明する。

同社はこれまでもテキスト情報に基づくスライドの自動分類を手がけてきた。しかしテキスト情報だけでは「統計情報がグラフで掲載されているスライド」は見つけられなかった。一方、画像認識によってグラフだけを探しても、グラフに含まれる内容が統計情報なのか、それとも単なるイメージなのか判断できなかった。マルチモーダル学習によってテキストと画像の両方に着目する機械学習モデルの開発が可能になり、従来の問題が解決した。

 画像認識にはCNN[2](Convolutional Neural Network)を、テキスト解析には「BERT[3]」を採用し、CNNとBERTという2つの種類のニューラルネットワーク[4]を統合した機械学習モデルをつくることで、画像とテキストを同時に識別できるようにした。

 

・教師データは50個あれば十分

 ユーザーはスライドファインダーを利用するにあたって、自社で作成してきたPowerPointファイルを30~50個ほど用意して、各スライドにどのような内容が含まれているかをタグ付けする。それを教師データとしてスライドファインダーの機械学習モデルに学習させると、ユーザーが作成したPowerPointファイルに対する内容に基づく分類ができるようになる。

 「マルチモーダル学習という考え方自体は以前から存在するが、従来は異なるタスクに対応する機械学習モデルを1つに統合するのが難しかった。画像認識とテキスト解析の両方がニューラルネットワークになったことで、両者を融合するのが容易になった」。有馬CTOはそう説明する。

 

コメント

・画像認識とテキスト解析の両方にニューラルネットワークを介したシステムを運用することによって、画像とテキストを同時に識別できるようになったことはとても興味深い。

・なぜ、片方がニューラルネットワークではだめなのか、それを知ること、調査することも今後重要になってくるのではないかと考える。

・教師データが50と少ない数ですむことは企業にとっては負担が少なく、導入しやすい。

・教師データが少なくても機能するということは、それだけ、システムに事前に教師データを組み込んでいるからだろうと考えられる。

・ストックマークは、本記事で紹介された「Asales」以外にも、社内用情報共有システムである「Anews」と市場動向や競合の動きをAIに可視化させる「Astrategy」を運営している。

・過去のプレゼン資料の一部のみを使いたい又は参考にしたいといったときに、今までは一つ一つのスライドをチェックする必要があったが、「Asales」を使えば、そのてまが減り、業務の効率化につながると考えられる。

 


[1] スタートアップ企業:新たなビジネスモデルを開発する起業で、市場を開拓する段階にあるもの。一般的に、創業から2~3年程度の起業を指すことが多い

[2] CNN:Convolutional Neural Networkの略で、画像認識でよく使われるディープラーニングの代表的手法のひとつ

[3] BERT:Googleが公開した自然言語処理システム

[4] ニューラルネットワーク:人間の脳神経系を抽象化し、情報の分散処理システムとしてとらえたモデル