linguistictagger — 言語解析
linguistictagger モジュールは自然言語のテキストを分解し、品詞のような情報のタグ付けをするのに使用します。
このモジュールが提供するのは単一の機能です:
linguistictagger.tag_string(string, scheme)
引数 string で与えられた文に、引数 scheme に応じたタグ付けをします。scheme に使用できる定数については、後述します。
戻り値は要素数が3つのタプルのリストです。それぞれのタプルは、タグ、タグ付けされた部分文字列、元の文字列の中の部分文字列の位置、の3要素で構成されています。
例:
import linguistictagger as lt text = 'Python is pretty awesome.' results = lt.tag_string(text, lt.SCHEME_LEXICAL_CLASS) for tag, substring, range in results: if tag != 'Whitespace': print (substring, ": ", tag)
定 数
linguistictagger.SCHEME_TOKEN_TYPE
文字列中のトークンを大雑把なタイプ(単語、句読点、スペースなど)に分類します。
linguistictagger.SCHEME_LEXICAL_CLASS
文字列中のトークンをクラス(単語の品詞、句読点、スペースなど)に分類します。
linguistictagger.SCHEME_NAME_TYPE
文字列中のトークンを、名付けられた具体的な物(人名、地名など)か、そうでないかを分類します。
linguistictagger.SCHEME_NAME_TYPE_OR_LEXICAL_CLASS
文字列中のトークンに対して、名付けられた具体的な物か、品詞、句読点、スペースなどのタグ付けをします。
linguistictagger.SCHEME_LEMMA
辞書に該当する項目がある場合、単語の原形(語幹)を返します。
linguistictagger.SCHEME_LANGUAGE
トークンごとに言語の種類を示すタグを付けます。タグの値は、標準的な言語の「en」(英語)、「fr」(フランス語)、「de」(ドイツ語)、「ja」(日本語)などの省略形です。なお、言語分類の判定は通常、単語ごとではなく、文や段落全体のレベルで行われることにご注意下さい。
linguistictagger.SCHEME_SCRIPT
トークンの文字種類に応じて分類してタグ付けします。タグの値は「Latn」(ラテン文字)、「Cyrl」(キリル文字)、「Jpan」(漢字)、「Hans」(簡体字)、「Hant」(繁体字)などのように標準的な文字種類の省略形です。