日本語の形態解析システムとして最も有名なものは茶筌であらう。ただし、茶筌はシフトJISにしか對應してゐない。僕のデータは大抵UTF-8であるので使ひにくい。
さういふ訣で、Yahooの形態解析WEBサアビスを評價してみた。「庭には二羽ニワトリがいる」といふ文を、まづは形態解析してみる。
庭
に
は
二
羽
ニワトリ
が
いる
まづは合格である。次に正假名遣で同じ文を試してみる。「庭には二羽ニワトリがゐる」だ。
庭
に
は
二
羽
ニワトリ
が
ゐ
る
「ゐる」といふ動詞が「ゐ」と「る」に分解されてしまつてゐる。多分、「ゐ」や「ゑ」が使はれる事を全く考慮してゐない。つまり、正假名遣には對應してゐない。
これだと日本の古典の文章を形態解析して、例へば『源氏物語』で一番使はれてゐる單語(名詞)は何かを調べる、といつた事が不可能である。
もう少し日本語の現實に即した形態解析を作つて呉れないものだらうか。この賦録(ブログ)で何度も書いてゐるやうに、現代語や口語だけが日本語ではない。
さういふ訣で、Yahooの形態解析WEBサアビスを評價してみた。「庭には二羽ニワトリがいる」といふ文を、まづは形態解析してみる。
庭
に
は
二
羽
ニワトリ
が
いる
まづは合格である。次に正假名遣で同じ文を試してみる。「庭には二羽ニワトリがゐる」だ。
庭
に
は
二
羽
ニワトリ
が
ゐ
る
「ゐる」といふ動詞が「ゐ」と「る」に分解されてしまつてゐる。多分、「ゐ」や「ゑ」が使はれる事を全く考慮してゐない。つまり、正假名遣には對應してゐない。
これだと日本の古典の文章を形態解析して、例へば『源氏物語』で一番使はれてゐる單語(名詞)は何かを調べる、といつた事が不可能である。
もう少し日本語の現實に即した形態解析を作つて呉れないものだらうか。この賦録(ブログ)で何度も書いてゐるやうに、現代語や口語だけが日本語ではない。