マクロのミニテスト対策をしております。


例によって山かけをしており、記事に書いていたところ


なぜか一瞬にして消えました・・・


もうあきらめて寝なさいという神様からのメッセージなのでしょうか。


まぁ書いているうちに少しは頭に入ったので、


メッセージをありがたく受け止め、そろそろ寝ようかなと思います。


軽く頭も痛くて。

設定がなかなか狙い通りにできません。



「看護師」は


"看護 名詞-サ変接続"

"師  名詞-接尾-一般"


に分解されます。



そこでchasenrcに


「(連結品詞 ((名詞) (名詞 サ変接続)(名詞 接尾 一般)))」と書いたら


"看護師 名詞"


となり、うまくいきました。




しかし「転倒転落アセスメントスコア」は何も設定しないと


"転倒 名詞-サ変接続"

"転落 名詞-サ変接続"

"アセスメント 名詞-一般"

"スコア 名詞-一般"


なのですが、上記の設定後に分析すると


"転倒転落 名詞"

"アセスメント 名詞-一般"

"スコア 名詞-一般"


となります。




(名詞 接尾 一般)の語は含まれていないのになぜ?




答えは以下のサイトに書かれていました。


【[chasen-users:00385] Re: 連結品詞の仕様について教えてください 】

http://chasen.naist.jp/ml/chasen-users/msg00384.html




単語登録を地道にがんばるしかないのかな・・・

テキスト分析対象データの単語抽出にChasenを使っていますが

デフォルトの辞書には医療用語はないみたいで

「誤飲」など「これって医療用語?」って思うようなものも切り出せません。


その他にも、


「お」

「む」

「つ」


に分解されたり(「オムツ」だとOK)


「看護」

「師」


とか思いもよらないところで分解されるので

ユーザー辞書登録が必要であることは間違いないようです。




が・・・わかりやすく手順が解説されているサイトがあんまりなくて

ちょっと難しそうな感じがしています。





品詞同士を連結して一つの単語にするという設定が簡単なようなので

そちらを試してみました。


Chasenフォルダの「dic」内の「chasenrc」というファイルに書いて実行すれば

すぐに反映されます。


例えば


「(連結品詞 ((名詞) (名詞 数)(名詞 接尾 助数詞)))」と書いておけば


「X年」とか「X月」が一つの名詞になったりします。



とりあえず「看護」「師」を「看護師」にしようと思い

「(連結品詞 ((名詞)))」と書いて実行してみました。



「看護師」になりました~!ヾ(@^(∞)^@)ノ



・・・同時に「転倒転落アセスメントスコア」という単語もできあがってきました。(ノ_・。)





最終的には辞書登録ですが、できるだけ連結品詞での工夫を考えたいと思います。

相変わらず教室は狭いですが、前ほど嫌な印象はなくなったかも?


途中で話が全然わからなくなったのですが、聞いたら丁寧に教えていただいたので


私が間違った解釈をしていたせいでつまづいたのだと理解することができました。


とりあえずその日の授業内容を理解できればやっていけるかもしれません。


こんな大口叩いてもし落としたらかっこ悪いですが~。





ミニテストは2回目までは出るところをピンポイントで教えてくださったのですが


次回からの出題範囲は「今日やったところ」というアバウトなものに変わりました。


はじめはお手柔らかにってことでのサービスだったのかもしれませんね。


日曜日に復習しておくことにします。

初回授業でした。



外国人のようなプレゼンをするパワフルな印象の先生で

熱くエキサイティングな雰囲気の中周囲では活発な議論が繰り広げられていました。


人気過ぎて教室に入りきらず、椅子が追加されていました。


一緒に登録した人もよい授業にあたったと喜んでいました。




一方の私は・・・


例によって左右20cmで人に挟まれているという環境に耐えられず

ろくにメモも取らず一秒でも早く授業が終わってほしいとそればかり願っていました。



ただ来週以降は教室変更があるかもとのアナウンスがあったので

次回からはがんばりたいと思います。

卒論をどうするか?を考えています・・・




この間買った「言語研究のための統計入門」のカバーには


・データ間の差を検証したい→仮説検定(3章)

・データ間の関連を調べたい→相関分析(4章)

・あるデータを他のデータを使って説明したい→回帰分析(5章)

・データの識別ルールを発見したい→判別分析(6章)

・データをいくつかの群にグルーピングしたい→クラスター分析(7章)

・データを合成して新しい指標を作り出したい→主成分分析(8章)

・データを分解して隠れた要因を探り出したい→因子分析(9章)

・データ間の構造を整理したい→コレスポンデンス分析(10章)


と書かれています。




分析対象データを考えると、やってみたいのは


・データ間の関連を調べたい→相関分析(4章)

・あるデータを他のデータを使って説明したい→回帰分析(5章)

・データを分解して隠れた要因を探り出したい→因子分析(9章)


あたりかなぁと考えています。




ただ本は


「文書の数(少)&各文書における単語量(多)」


に対して、私の持っているデータは


「文書の数(多)&各文書における単語量(少)」


なので、量的データの抽出の方法を考えなければいけません。


(分析ツールに1つのファイルを読み込んで解析→出力を数万回繰り返すのは厳しいので)




本の例はいずれも頻度データを用いているので、私もまずはそちらを使ってみたいと思います。




>>>



各レコードデータの単語頻度抽出はあっさりできました。



1)Excelマクロで1レコードずつ任意の列のデータをテキストファイルへ出力する


2)1)のファイルに対して形態素解析を行い、別のテキストファイルに出力する。

  ファイル数が1700弱あるので、指定フォルダを読み込んでファイルパスをコマンドに渡して

  実行するバッチファイルを作る


3)MLTPで2)のファイルを読み込み、形態素解析ツールを指定して分析を行う。


4)n-gram機能で単語頻度を抽出する。





今4)をやっていますが、もう2時間くらい経つのにまだ終わりません・・・。


1700ファイルの全品詞ということで仕方ないのかな。




明後日のマクロ経済学のテスト勉強をしながら待ちたいと思います。




>>>



結果出ました。


辞書への単語登録からやりなおしです・・・叫び



忘れていました

私が書いた稟議書が却下されて返ってきました。


書かれたコメントを読んだ結果、再検討をお願い申し上げることにしました。




稟議の結果は経理の同僚を通して伝えられるのですが、再提出する旨を話したところ


後から


「madopingさん、これ・・・」


と何やら紙を差し出されました。




経理側からの裏付けで、申請が正当であることを示すものでした。




もう1人の同僚からは


「この稟議が通らなかったらXXという不都合も発生すると思いますよ。その旨も添えては?」


とアドバイスいただきました。




それらをまとめて形にしてみたところ、自分で見ても最強の稟議書になってました。


一応彼らにも見せてチェックをしてもらったのですが


「これで通らなかったら何やっても無理だと思いますよ」


とのお墨付きをもらいました。




サイドからの支援でがっちり固められ、とても心強かったです。


感謝すると同時に、


自分からもみんなをフォローできる何かがあればできるだけしていきたいと思いました。



また今回の体験で、まぁ当たり前なんだろうけど「個人の力<チームの力」と感じました。


有効に反映していけたらと思います。

去年この授業の前半戦を受け、その続きになります。


先生も変わっておらず、進め方も変わらずのようです。


授業登録の時に「今までとった授業でおすすめの科目」を聞かれたりするのですが、この授業は万人に

薦められる数少ない科目です。


説明を「学術→漫画」くらいのレベルに噛み砕いてくださるので、理解しやすく頭に残りやすいというのも

あるのですが・・・


「難儀せずに単位を確実に取りたい」系の人にも


・レポートなし

・数式なし(でも深く勉強したい人向けにレジュメには一応載せてある)

・テストはカンニングペーパー1枚を持ち込み可


という理由で薦めています。



今日は効率性と公平性のお話で

「どの程度まで社会を公平にするのかについて2つの基準がある」ということで

「社会厚生関数(ベンサム・ロールズ)」の説明がありました。


「あなたは線路の切り替えをする係です。

この先の線路上に4人立っており、そのまま電車が行ったら4人亡くなることになります。

切り替えると線路上に1人立っています。

あなたはどうしますか?」


なんかブラックな喩ですが、パレート効率化(誰か他の人を改悪することなしには誰も改善することは

できない状態で、交換による利益は無駄なく全て利用し尽くされている⇒社会全体においてベストな

状況?)を考えるというのはこういうことなのかもしれないですね。


指された人はみんな「切り替える」と答えていました。(私も)


「じゃあ話を変えて、直線上に4人立っていて、轢かれたら4人ともけがはしますが生死には

関わらない状態になるとします。

切り替えた先には1人立っていて、轢かれたら瀕死の重傷を負うとします。

あなたはどうしますか?」


これは困りましたが、また指されたので「切り替えない」と答えました。


4人死亡よりも1人死亡を選択するのはベンサム型(各人の効用を足し合わせたものを水準とする)で

「効率性」を追及したものであるのに対し

4人のけがよりも1人の大けがを避けるのはロールズ型(一番効用が低い人の水準に合わせる)で

「公平性」を追及しているものである。


このように「どの水準にすべきか」は必ずしも一貫しておらず、なので選択が難しい?というような

内容だったと思います。


なんかリアルですね。とりあえず切り替える立場にはなりたくないと思いました。

まぁ投票という行為でその一端を担っているのだとは思いますが。

今日からゼミ仲間も登録してました。


先週ゼミの前にあった時に履修した授業を教えあいっこしたのですが

卒論のテーマにポートフォリオを選んでいることもあり興味が湧いたようです。

履修についてゼミの先生にも相談したと話していました。


就活のイベントがあったらしく、はじめてスーツ姿を見ました。


「今日はなんか大人みたいだね」と言ったら「いつも子供ですからね」と言い返されました。



今日はテクニカル分析で、ローソク足の見方などを習いました。


陽線(始値に対して終値が高い・白や赤の棒で表す)、陰線(始値に対して終値が安い・

黒や青の棒で表す)にはじまり、基本パターン(大陽線:非常に強いなど)や

陽線と陰線の組み合わせで見る「株価が上昇しやすいパターン」「下落しやすいパターン」

などです。


覚えきれてはいませんが、聞いていておもしろかったです。

1週間に2回授業があるので当然といえば当然なのですが、マクロマクロマクロ・・・な感じです。


つい2日前に授業が吹き飛ばされましたが、それでもしつこくやってきますね。


さっそくお約束の「毎回ミニテスト」受けてきました。


前の時間は授業を入れていないので図書館で勉強し、まぁ大丈夫だったんじゃないかと思います。


こんなに嫌っていますが、先生のお話はわかりやすく、すごくいい内容です。


話の組み立て方がうまいと感じます。


でも・・・部屋がすし詰めなんですよね


ひざに荷物を置いて90分テスト&授業を受けました。


正直しんどいです。


なんで必修の授業をこんな中学校の教室みたいなところでやるのか意味が分かりません。


ミクロの時はこの軽く3倍以上広い教室だったので余計に思ってしまいます。


頭が授業から離れるたびに「あぁ早く出たい早く終われ~」と考えていました。