日本語能力の高い生成ＡＩの基盤技術、スパコン「富岳」で開発へ…東工大・富士通などのチーム

5/22(月

　東京工業大や富士通などのチームが今月、日本語能力の高い生成ＡＩ（人工知能）の基盤技術の開発に乗り出す。国産の生成ＡＩを開発し、国際競争力の強化につなげる狙いがある。一方、専門家からは、著作権侵害などの問題への対処や開発過程の透明化を求める指摘もある。

　米オープンＡＩによる対話型サービス「チャットＧＰＴ」に代表される生成ＡＩは、ＡＩの訓練にインターネット上の英語の文章が多く使われている。そのため、日本語の精度が英語より低いことが課題だった。

　チームには東工大や富士通のほか、東北大、理化学研究所などＡＩ研究で日本を代表する研究機関や企業が結集した。開発するのは、「大規模言語モデル」と呼ばれる生成ＡＩの基盤技術。グーグルが２０１７年に開発した言語学習手法を使い、ネット上にある大量の日本語の文書データをＡＩに読み込ませる。

　ＡＩを訓練して性能を高めるには膨大な計算が必要になるため、スーパーコンピューター「富岳」を使い、比較的短期間での開発を狙う。開発した基盤技術は今年度内に公開し、国産の生成ＡＩの開発や商用サービスへの利用につなげる。

　生成ＡＩには、個人情報の漏えいや著作権の問題などが指摘されている。チームの坂口慶祐・東北大准教授（情報科学）は「米国の一部の企業だけが技術を持つ状況は好ましくない。様々な課題に対処するためにも日本が技術を持っておくことが重要だ」と話す。

　ＡＩ開発に詳しい松原仁・東京大教授の話「生成ＡＩが社会を変えると言われる中、国産の技術を持つのは適切だ。一方、著作権侵害の懸念などもあり、開発の目的や進捗（しんちょく）を丁寧に説明することが求められる