linguistictagger — 言語解析

 linguistictagger モジュールは自然言語のテキストを分解し、品詞のような情報のタグ付けをするのに使用します。

 このモジュールが提供するのは単一の機能です:

linguistictagger.tag_string(string, scheme)

 引数 string で与えられた文に、引数 scheme に応じたタグ付けをします。scheme に使用できる定数については、後述します。

 戻り値は要素数が3つのタプルのリストです。それぞれのタプルは、タグ、タグ付けされた部分文字列、元の文字列の中の部分文字列の位置、の3要素で構成されています。

 例:

import linguistictagger as lt
text = 'Python is pretty awesome.'
results = lt.tag_string(text, lt.SCHEME_LEXICAL_CLASS)
for tag, substring, range in results:
    if tag != 'Whitespace':
        print (substring,  ": ", tag)

定 数

linguistictagger.SCHEME_TOKEN_TYPE

 文字列中のトークンを大雑把なタイプ(単語、句読点、スペースなど)に分類します。

linguistictagger.SCHEME_LEXICAL_CLASS

 文字列中のトークンをクラス(単語の品詞、句読点、スペースなど)に分類します。

linguistictagger.SCHEME_NAME_TYPE

 文字列中のトークンを、名付けられた具体的な物(人名、地名など)か、そうでないかを分類します。

linguistictagger.SCHEME_NAME_TYPE_OR_LEXICAL_CLASS

 文字列中のトークンに対して、名付けられた具体的な物か、品詞、句読点、スペースなどのタグ付けをします。

linguistictagger.SCHEME_LEMMA

 辞書に該当する項目がある場合、単語の原形(語幹)を返します。

linguistictagger.SCHEME_LANGUAGE

 トークンごとに言語の種類を示すタグを付けます。タグの値は、標準的な言語の「en」(英語)、「fr」(フランス語)、「de」(ドイツ語)、「ja」(日本語)などの省略形です。なお、言語分類の判定は通常、単語ごとではなく、文や段落全体のレベルで行われることにご注意下さい。

linguistictagger.SCHEME_SCRIPT

 トークンの文字種類に応じて分類してタグ付けします。タグの値は「Latn」(ラテン文字)、「Cyrl」(キリル文字)、「Jpan」(漢字)、「Hans」(簡体字)、「Hant」(繁体字)などのように標準的な文字種類の省略形です。