卒論をどうするか?を考えています・・・




この間買った「言語研究のための統計入門」のカバーには


・データ間の差を検証したい→仮説検定(3章)

・データ間の関連を調べたい→相関分析(4章)

・あるデータを他のデータを使って説明したい→回帰分析(5章)

・データの識別ルールを発見したい→判別分析(6章)

・データをいくつかの群にグルーピングしたい→クラスター分析(7章)

・データを合成して新しい指標を作り出したい→主成分分析(8章)

・データを分解して隠れた要因を探り出したい→因子分析(9章)

・データ間の構造を整理したい→コレスポンデンス分析(10章)


と書かれています。




分析対象データを考えると、やってみたいのは


・データ間の関連を調べたい→相関分析(4章)

・あるデータを他のデータを使って説明したい→回帰分析(5章)

・データを分解して隠れた要因を探り出したい→因子分析(9章)


あたりかなぁと考えています。




ただ本は


「文書の数(少)&各文書における単語量(多)」


に対して、私の持っているデータは


「文書の数(多)&各文書における単語量(少)」


なので、量的データの抽出の方法を考えなければいけません。


(分析ツールに1つのファイルを読み込んで解析→出力を数万回繰り返すのは厳しいので)




本の例はいずれも頻度データを用いているので、私もまずはそちらを使ってみたいと思います。




>>>



各レコードデータの単語頻度抽出はあっさりできました。



1)Excelマクロで1レコードずつ任意の列のデータをテキストファイルへ出力する


2)1)のファイルに対して形態素解析を行い、別のテキストファイルに出力する。

  ファイル数が1700弱あるので、指定フォルダを読み込んでファイルパスをコマンドに渡して

  実行するバッチファイルを作る


3)MLTPで2)のファイルを読み込み、形態素解析ツールを指定して分析を行う。


4)n-gram機能で単語頻度を抽出する。





今4)をやっていますが、もう2時間くらい経つのにまだ終わりません・・・。


1700ファイルの全品詞ということで仕方ないのかな。




明後日のマクロ経済学のテスト勉強をしながら待ちたいと思います。




>>>



結果出ました。


辞書への単語登録からやりなおしです・・・叫び



忘れていました