今期の知財AI活用研究会メンバーから、Deskbeeは同義語や類似語をどのように扱うのかとの質問をいただきました。Deskbeeは同義語なんて一切気にしてくれません。彼にとっては「二酸化炭素」も「CO2」も「炭酸ガス」も全く別物です。精度の高いAI判定を目指すには、自分で同義語を揃えるための処理が必要になります。今日は、この「同義語辞書」についてご紹介します。
国立研究開発法人科学技術振興機構(JST)では、科学技術用語形態素解析辞書サイトを運営しています。このサイトは所定の利用許諾に基づいて無償で利用することができます。
このサイトを開いて、図の赤枠のように入力・選択し、Searchボタンをクリックしてください。
図のように発光ダイオードの同義語が7種類表示されました。
Deskbeeに判定させる教師特許および被判定特許の名称・要約・請求項文字列内に、表の7種類の単語が存在する場合は、これらをすべて「発光ダイオード」に変換することで、AI判定の精度を高めることができます。
上記はデータベースを対話操作する方法をご紹介したものです。ウインドウ上部に表示される「ダウンロード」をクリックしてください。
開かれたダウンロード画面から、「mecab_thesaurus.zip」をダウンロードし、このファイルを解凍するとデータベースに収録された情報がCSVファイル形式で現れます。Excelで開いてオートフィルタを設定し、「Base Form」列で「発光ダイオード」を選択するとA列の「Surface form」列に、前記の7種類の同義語が表示されます。
この情報を活用することで、Deskbeeに判定させる前に同義語を統一することができます。お試しください。
アイ・ピー・ファイン株式会社/知財AI活用研究会アドバイザー
中西 昌弘

