昨今、人工知能AIがブームになっているのですが、人工知能の一例としては、対話システムや、対話システムに組み込まれる情報の認識、理解の部分があります。

 

今日、9月22日、第48回産総研AIセミナー「マルチモーダル情報の統合理解の最前線」をオンライン聴講しました。

 

NTT人間情報研究所の西田京介特別研究員は「視覚と言語の統合的理解に基づく文書理解と質問応答」について講演した。概略は下記の通り。

 

BERTやGPT-3に代表される、大量のテキストで学習された巨大なニューラルネットは自然言語理解にパラダイムシフトを起こした。このアプローチは視覚と言語の融合領域にも導入され、近年では視覚的な要素を含む文書理解に関する研究が進展している。本講演では、我々が取り組んでいるWebページのスクリーンショットやインフォグラフィクス画像に対する質問応答技術に関する成果を含めた、視覚と言語の統合的理解に基づく文書理解と質問応答の最新動向と今後の展望について触れる。

 

ロボティクスプロジェクトの知識獲得・対話チームの吉野 幸一郎チームリーダーは「実世界での対話システム」について講演した。この概略は下記の通り。

 

近年の深層学習技術などの進展から、ヒューマンインタフェースとして言語を用いる対話システムへの期待が高まっている。こうした対話システムを実世界で用いようとする場合、実世界の事物を認識して対話の共通基盤として用いることができるかが大きな問題となる。具体的には、ユーザと同じ空間で動作をすることが期待される対話ロボットなどの場合、実世界における事物の認識と、ロボットが持つ知識、対話中の言語で表現された概念のそれぞれを対応づけて用いる必要がある。本講演ではこうした実世界で動作する対話ロボットの取り組みについて紹介し、今後必要な研究の取り組みについて議論する。