今日は知財AI活用研究会のメンバーのみなさんを対象とした話題を提供します。もちろん第1期から第3期に研究会に参加していたOBの方や、研究会には所属していなくてもDeskbeeをお使いのみなさんにも有益な話題だと思います。

 

今期の研究会メンバーから、「Deskbeeで特許分類を判定させることはできますか?」との質問がありました。そこで検討してみた最新の結果をご紹介します。

あらかじめ人手による読み込みを行い、所定の条件を満たした集合(サーチ集合)と、条件を満たしていない集合(ノイズ集合)に分けられた日本特許群を用意しました。サーチ・ノイズともに、約300件という規模の集合です。申し訳ありませんが、母集団の詳細は明らかにはできませんが、ご容赦を。

この集合を件数が1/4の子集合になるようにランダムに分割して、そのうちのひとつを教師特許群として、残りの3つの集合を被判定特許群として扱いました。K分割交差検証法と呼ばれる検証方法です。「交差検証」の詳細はこの文書をご覧ください。

続いてこの特許群を、DeskbeeでAI判定してみました。最初は名称+要約+請求項の文字列を「使用項目」に指定しました。

得られた判定結果を確率差の高いもの(最もサーチ教師に近いと想定される案件)から降順にソーティングし、所定の境界値より上をサーチ案件、下をノイズ案件とします。ここでは適合率・再現率のF値がピークになるポイントを境界値として扱いました。適合率・再現率・F値については、この文書を参考にしてください。

 

結果をご紹介します。

左のグラフが、縦軸:サーチ確率×横軸:ノイズ確率を表した散布図です。赤のドットがユーザ評価によりサーチ案件だと判定された案件、緑のドットが同じくユーザ評価ノイズ案件を表しています。

 

サーチ確率からノイズ確率を減算した「確率差」による閾値を黒線で示しています。黒線の左上に配置された案件が、DeskbeeがサーチだとAI判定した案件、右下がノイズとAI判定した案件群です。

 

右のグラフは、確率差降順に並べ替えた案件群を、何件査読した時に何パーセントのサーチ特許を読むことができるかを表した再現率飽和カーブです。この例では全621件のうち245件を読むことで91%のサーチ特許を読み終わることになります。

 

この結果を混同行列で表すと次表のようになります。混同行列の詳細はこの文書をご覧ください。前記のように求めた境界値を基準としてDeskbee判定させると、あらかじめユーザが評価したサーチ特許のうち205件がDeskbeeによりサーチと判定されたことを表しています。

 

続いて特許明細書内の文字列を判定するのではなく、各案件に付与された特許分類、ここではIPCをDeskbeeに判定させるとどうなるかをご紹介します。

 

IPCは特許庁や工業所有権協力センター(IPCC)の「有識者」が、人工知能ではなく「人間知能」を駆使して分類したコードです。囲碁や将棋は別として、特許の査読についてはまだまだ人間知能に軍配が上がります。この人間知能が付与した分類を人工知能で解析するという合わせ技にトライしてみました。

 

教師特許と被判定特許とでIPCの表現形式が異なると正しい判定ができなくなるため、IPC文字列の形式は上図の形式に統一しました。

 

Deskbeeで、このIPC列だけを「使用項目」に設定してAI判定させました。名称・要約・請求項の文字列は使用せずに、IPCコードだけの判定です。

 

散布図・再現率飽和カーブは次のようになりました。

 

混同行列を計算してみると次のように、名称・要約・請求項テキストを判定した時と大差ない結果が得られたことがわかります。

 

Deskbeeでは入力された文字列を、まずはmecabを使用して形態素単位に分割します。mecabはあくまでも日本語を解析するためのシステムであり、たとえば「G06F 21/34」のIPCコードを入力すると、次のように分断してしまいます。


G       名詞,一般,*,*,*,*,*
06      名詞,数,*,*,*,*,*
F       名詞,一般,*,*,*,*,*
21      名詞,数,*,*,*,*,*
/       名詞,サ変接続,*,*,*,*,*
34      名詞,数,*,*,*,*,*

 

これでは、せっかく特許庁・IPCCの有識者が「G06F 21/34」と判断したIPCコードが壊されてしまいます。このためDeskbeeで特許分類を判定させるためには、「カプセル化」が必須であるというのが、これまでの研究会での通説でした。しかし「カプセル化」することなく、「生のIPCコード」をそのままAI判定させても、十分な結果が得られているようです。

 

Deskbeeでは形態素に分割されたタームを、1個ずつ使用して教師群との近似性を判定するだけではなく、最大5個までの連続タームの近似性を判定する仕掛けが備わっているようです。さらにターム1個の一致よりも、連続ターム5個の一致の方に重み付けされている様子です。この文書にも記されたように、AIツールを使用していると、このブラックボックスに悩まされます。

 

Deskbeeで特許分類IPCをAI判定させることが可能、このアプローチもそこそこ有効であるというご紹介でした。

 

・・・・

 

ところで、このブログでご紹介した例では適合率・再現率のF値により境界値を設定しました。しかしこれはAI判定の目的によって、ご自分で決めるべき値です。

 

たとえば重要特許を絶対に漏らさないことを狙うときには、散布図上での黒の境界線をより右下に位置させる必要があります。また本来の業務に忙しい研究者・開発者に対して、特許査読に要する時間を削減するために、重要な案件だけに絞りたいときには、境界線を左上に上げるべきでしょう。境界値の設定はApplication Specificであることにご注意を。

 

アイ・ピー・ファイン株式会社/知財AI活用研究会アドバイザー
中西 昌弘