i chingの文字トライグラムを使用したPython言語の検出
▼▼▼▼▼▼▼
⇪⇪⇪⇪⇪⇪⇪
2018年4月22日。言語識別(LI)は、決定の問題です。 67以上の言語を分類する際に文字バイグラムとトライグラムを使用した単一文字の... whatthelangはPythonで書かれた最近の言語識別子です... Ng and Selamat(2009)Choon-Ching Ng and Ali Selamat。
ヒンディー語とを区別するためのN-gramベースのアルゴリズム。
文字トライグラムを使用した言語検出ダウンロード。
テキストおよび音声のネイティブ言語識別-関連付け。
独自の英語のトライグラムテーブルをコンパイルするのは簡単ですが、Natural Language Toolkitにはいくつかの共通言語のセットが付属しています。それらはNLTK_DATA / corpora / langidにあります。 nltkライブラリ自体なしでtrigramデータを使用できますが、モジュールを調べることもできます。
文字トライグラムを使用した言語検出(Pythonレシピ。フォークから。
アイデアについては、Pythonを使用したNatural Language Toolkitおよび自動言語識別をご覧ください。ベイジアンフィルターが言語を正しくできるかどうか知りたいのですが、今は概念実証を書くことができません。
2017年12月27日。さまざまな自然の問題により、不適切な言語の検出は困難です...不適切/攻撃的な単語リストに「ching chong」という単語が存在すること。 Perrot、M.、Duchesnay、E .: Scikit-learn:Pythonでの機械学習。