rubyの実行環境がない方でも実行できるようになりました。


uniqlinkのほうは、引数の指定にこれまでと変わりはありませんが、

hirakaのほうは、script版、exe版共に、変更があります。


これまでは、

hiraka.rb < inputfile > outputfile

でしたが、


0.02a以降

hiraka.rb inputfile [-m MecabPath] > outputfile

となります。これはexe版も同様です。


-mオプションでmecabのパスを指定しなかった場合、

デフォルトで、c:\program files\mecab\bin\mecab.exeが使われます。

これ以外のパスを指定している人は、-mオプションでmecabのパスを指定してください。


以下のURLからDLできます。

http://www.geocities.jp/chisato_ts/

ID 見出し語 表示読み 検索読み キーワード 本文 参照ID
連番付加 読み込まれた見出しから、なければ本文00から なし 読み込まれていれば90と91から 読み込まれていれば81から 本文00から、4000byteで分割 本文00から抽出

見出しファイル、04, 05, 0Aは対応するINDEX、90, 91, 81がある場合のみ読み込まれる


図1

参照IDが重複するという報告があったので、作りました。

動作にはrubyが必要です。


使い方、コマンドプロンプトで

ruby uniqlink.rb < inputtsv.txt > outputtsv.txt

としてください。


inputtsv.txtとoutputtsv.txtはそれぞれ、入力tsvファイルと出力先のtsvファイルです。


uniqlink.rbは下のホームページからDLできます。

http://www.geocities.jp/chisato_ts/

とりあえず動くようにはなったので公開します。


Rubyの実行環境と、MeCabが必要です。

Ruby: http://www.ruby-lang.org/

MeCab: http://mecab.sourceforge.net/


<使い方>

hiraka.rbをDLして、6行目のmecabパスの部分を各自書き換えてください。


その後、

ruby.exe hiraka.rb < tsvfile.txt > output.txt

のように実行してください。


tsvfile.txtは変換元のtsvファイル名で、output.txtが出力先ファイル名です。


Windows XPで動作確認しました。

Linux, MacOS, Vistaでは動作確認していません。


スクリプトは、以下のホームページからダウンロードできます。
http://www.geocities.jp/chisato_ts/


※rubyスクリプトで、こうしたほうがいい等、あれば教えてください。

更新しました。

echo %errorlevel%で10が返ってくる人は変換できるかもしれません。

それ以外の人には関係のない更新です。


更新履歴
0.02a -> (0.02b) -> 0.02c
ちょっとした書式違いでテキトウに終了させていたのを、行を飛ばすだけに変更。


以下のホームページからダウンロードできます。
http://www.geocities.jp/chisato_ts/