linguistictagger — 言語解析

　linguistictagger モジュールは自然言語のテキストを分解し、品詞のような情報のタグ付けをするのに使用します。

　このモジュールが提供するのは単一の機能です：

linguistictagger.tag_string(string, scheme)

　引数 string で与えられた文に、引数 scheme に応じたタグ付けをします。scheme に使用できる定数については、後述します。

　戻り値は要素数が3つのタプルのリストです。それぞれのタプルは、タグ、タグ付けされた部分文字列、元の文字列の中の部分文字列の位置、の3要素で構成されています。

　例：

import linguistictagger as lt
text = 'Python is pretty awesome.'
results = lt.tag_string(text, lt.SCHEME_LEXICAL_CLASS)
for tag, substring, range in results:
    if tag != 'Whitespace':
        print (substring,  ": ", tag)

定　数

linguistictagger.SCHEME_TOKEN_TYPE

　文字列中のトークンを大雑把なタイプ（単語、句読点、スペースなど）に分類します。

linguistictagger.SCHEME_LEXICAL_CLASS

　文字列中のトークンをクラス（単語の品詞、句読点、スペースなど）に分類します。

linguistictagger.SCHEME_NAME_TYPE

　文字列中のトークンを、名付けられた具体的な物（人名、地名など）か、そうでないかを分類します。

linguistictagger.SCHEME_NAME_TYPE_OR_LEXICAL_CLASS

　文字列中のトークンに対して、名付けられた具体的な物か、品詞、句読点、スペースなどのタグ付けをします。

linguistictagger.SCHEME_LEMMA

　辞書に該当する項目がある場合、単語の原形（語幹）を返します。

linguistictagger.SCHEME_LANGUAGE

　トークンごとに言語の種類を示すタグを付けます。タグの値は、標準的な言語の「en」(英語)、「fr」(フランス語)、「de」(ドイツ語)、「ja」(日本語)などの省略形です。なお、言語分類の判定は通常、単語ごとではなく、文や段落全体のレベルで行われることにご注意下さい。

linguistictagger.SCHEME_SCRIPT

　トークンの文字種類に応じて分類してタグ付けします。タグの値は「Latn」(ラテン文字)、「Cyrl」(キリル文字)、「Jpan」(漢字)、「Hans」(簡体字)、「Hant」(繁体字)などのように標準的な文字種類の省略形です。

linguistictagger — 言語解析