自動字幕システム、放送大学の講義で認識率約90%を実現 京都大学(大学ジャーナルオンライン12/8

http://univ-journal.jp/10872/

京都大学大学院情報学研究科河原達也教授、放送大学広瀬洋子教授らの研究グループは、講演・講義を対象とした自動音声認識の研究開発を進め、最新の深層学習を用いることで、放送大学の講義に対しても概ね90%の認識率を実現した。人手で書き起こすよりも効率的に字幕付与できるため、放送大学ではオンライン授業の字幕作成に活用している。組織的にこのシステムが活用されているのは初の事例。

放送大学でも、約300の科目の講義がテレビやラジオ、インターネットで配信されているが、現在、字幕が付与されているのはテレビ講義番組の半数程度にとどまっている。

30の講義を対象に音声認識結果を編集する場合と人手ですべて書き起こす場合とを比較した結果、システムの認識率が87%以上を超えると優位性が見られ、93%になると13以上の作業時間の短縮効果が確認できた。開発したシステムは、放送大学で2016年度から開始されたオンライン授業の字幕作成に活用されているほか、インターネット配信によるラジオ講義に字幕と静止画を付与したコンテンツも実験的に配信されている。

(サイトより引用 情報元:高岡正様)

--

87%という数字、ほかの音声認識でもあてはまる内容なのでしょうか。

注目すべき数字のようです。