今日もRの資料を読んでます。
>>>
1)データ読み込み
> mydata=read.csv("data1.csv")
> mydata
id age sex height weight fat bp hbp exz
1 1 52 女 147.2 51.9 35.8 104 NO NO
2 2 59 女 153.6 55.1 30.1 137 YES YES
3 3 65 女 156.8 66.5 35.5 127 YES NO
4 4 54 女 156.5 63.6 31.3 119 NO YES
5 5 39 女 163.0 82.0 44.6 103 NO NO
・
・
・
2)散布図描画
> opar=par(mfrow=c(1,1),mex=0.8,mar=c(3,3,2,1)+.1)
> stripchart(mydata$fat~mydata$bp)

3)ピアソンの相関係数(パラメトリック)
> cor(mydata$fat,mydata$bp)
[1] 0.3232337
4)相関係数の検定(母相関係数が0かどうか)
> cor.test(mydata$fat,mydata$bp)
Pearson's product-moment correlation
data: mydata$fat and mydata$bp
t = 3.1676, df = 86, p-value = 0.002128
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.1220543 0.4989009
sample estimates:
cor
0.3232337
結論:「無相関」は棄却
5)spearmanの順位相関係数(ノンパラメトリック)
> cor(mydata$fat,mydata$bp,method="spearman")
[1] 0.3469198
6)kendallの順位相関係数(ノンパラメトリック)
> cor(mydata$fat,mydata$bp,method="kendall")
[1] 0.2463783
<<<
また例題を使って練習。
「通勤時間と年間給与に差があるか相関係数の検定によって調べる。(有意水準5%)
通勤時間:1/1.2/0.5/1.5/2.0
年間給与:500/550/520/700/730
1)データ読み込み
> tsukin=c(1,1.2,0.5,1.5,2)
> kyuyo=c(500,550,520,700,730)
2)相関係数の検定
> cor.test(tsukin,kyuyo)
Pearson's product-moment correlation
data: tsukin and kyuyo
t = 3.1609, df = 3, p-value = 0.05084
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.02340966 0.99183364
sample estimates:
cor
0.8769693
結論:「無相関」を棄却できない
>>>
教科書の回答と一致しているか確認はしているものの
簡単に求められすぎて本当~に合っているのか不安になります。
もっとずっと大変だったイメージがなかなか払拭できません(笑)
>>>
1)データ読み込み
> mydata=read.csv("data1.csv")
> mydata
id age sex height weight fat bp hbp exz
1 1 52 女 147.2 51.9 35.8 104 NO NO
2 2 59 女 153.6 55.1 30.1 137 YES YES
3 3 65 女 156.8 66.5 35.5 127 YES NO
4 4 54 女 156.5 63.6 31.3 119 NO YES
5 5 39 女 163.0 82.0 44.6 103 NO NO
・
・
・
2)散布図描画
> opar=par(mfrow=c(1,1),mex=0.8,mar=c(3,3,2,1)+.1)
> stripchart(mydata$fat~mydata$bp)

3)ピアソンの相関係数(パラメトリック)
> cor(mydata$fat,mydata$bp)
[1] 0.3232337
4)相関係数の検定(母相関係数が0かどうか)
> cor.test(mydata$fat,mydata$bp)
Pearson's product-moment correlation
data: mydata$fat and mydata$bp
t = 3.1676, df = 86, p-value = 0.002128
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.1220543 0.4989009
sample estimates:
cor
0.3232337
結論:「無相関」は棄却
5)spearmanの順位相関係数(ノンパラメトリック)
> cor(mydata$fat,mydata$bp,method="spearman")
[1] 0.3469198
6)kendallの順位相関係数(ノンパラメトリック)
> cor(mydata$fat,mydata$bp,method="kendall")
[1] 0.2463783
<<<
また例題を使って練習。
「通勤時間と年間給与に差があるか相関係数の検定によって調べる。(有意水準5%)
通勤時間:1/1.2/0.5/1.5/2.0
年間給与:500/550/520/700/730
1)データ読み込み
> tsukin=c(1,1.2,0.5,1.5,2)
> kyuyo=c(500,550,520,700,730)
2)相関係数の検定
> cor.test(tsukin,kyuyo)
Pearson's product-moment correlation
data: tsukin and kyuyo
t = 3.1609, df = 3, p-value = 0.05084
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.02340966 0.99183364
sample estimates:
cor
0.8769693
結論:「無相関」を棄却できない
>>>
教科書の回答と一致しているか確認はしているものの
簡単に求められすぎて本当~に合っているのか不安になります。
もっとずっと大変だったイメージがなかなか払拭できません(笑)
今日もRやってます。
平均値の検定で、基礎統計の教科書の例題を使って練習しました。
>>>
A社は研修プログラムを社員研修に導入するかどうかを検討中です。
大規模に導入するには経費がかかり、本格的な導入前に
研修に効果があるかどうかを判断しなければなりません。
そこでA社は当該研修プログラムを試験的に導入することにしました。
ランダムに選ばれた社員10人に研修を受けさせたところ
研修前~研修後の成績の変化率は下の表のようになりました。
研修プログラムは効果があるでしょうか?
-0.06 0.07 0.09 -0.11 -0.07 0.10 0.07 -0.09 0.08 0.02
1)データを登録
> mydata81=c(-0.06,0.07,0.09,-0.11,-0.07,0.1,0.07,-0.09,0.08,0.02)
2)t検定(平均0・上側検定)
> t.test(mydata81,alternative=c("greater"))
One Sample t-test
data: mydata81
t = 0.37978, df = 9, p-value = 0.3565
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
-0.03826811 Inf
sample estimates:
mean of x
0.01
結論:「効果がない」を棄却できない
<<<
>>>
交代した新しいニュースキャスターは視聴率を最低でも5%はとれると
定評の人物です。
このことを確かめるために全国10都市でキャスター交代後の視聴率を
調査したところ、以下の結果になりました。
4.5 5.8 6.3 4.6 6.1 4.9 5.7 4.9 5.2 5.9
新しいニュースキャスターが定評通りの成果をあげているか、
有意水準5%で検定してみましょう。
1)データを登録
> mydata82=c(4.5,5.8,6.3,4.6,6.1,4.9,5.7,4.9,5.2,5.9)
2)t検定(平均5・上側検定)
> t.test(mydata82,mu=5,alternative=c("greater"))
One Sample t-test
data: mydata82
t = 1.9007, df = 9, p-value = 0.04489
alternative hypothesis: true mean is greater than 5
95 percent confidence interval:
5.013877 Inf
sample estimates:
mean of x
5.39
結論:「5%以下」を棄却(=5%以上取れる)
<<<
途中、
「true mean is greater than 0」「true mean is greater than 5」
と書かれているのを仮説のことだと思ってしまい、
私の「上側」「下側」の解釈が間違っているのかと焦って本を読みかえしました。
「alternative hypothesis」の意味を調べてやっと安心・・・Y(>_<、)Y
平均値の検定で、基礎統計の教科書の例題を使って練習しました。
>>>
A社は研修プログラムを社員研修に導入するかどうかを検討中です。
大規模に導入するには経費がかかり、本格的な導入前に
研修に効果があるかどうかを判断しなければなりません。
そこでA社は当該研修プログラムを試験的に導入することにしました。
ランダムに選ばれた社員10人に研修を受けさせたところ
研修前~研修後の成績の変化率は下の表のようになりました。
研修プログラムは効果があるでしょうか?
-0.06 0.07 0.09 -0.11 -0.07 0.10 0.07 -0.09 0.08 0.02
1)データを登録
> mydata81=c(-0.06,0.07,0.09,-0.11,-0.07,0.1,0.07,-0.09,0.08,0.02)
2)t検定(平均0・上側検定)
> t.test(mydata81,alternative=c("greater"))
One Sample t-test
data: mydata81
t = 0.37978, df = 9, p-value = 0.3565
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
-0.03826811 Inf
sample estimates:
mean of x
0.01
結論:「効果がない」を棄却できない
<<<
>>>
交代した新しいニュースキャスターは視聴率を最低でも5%はとれると
定評の人物です。
このことを確かめるために全国10都市でキャスター交代後の視聴率を
調査したところ、以下の結果になりました。
4.5 5.8 6.3 4.6 6.1 4.9 5.7 4.9 5.2 5.9
新しいニュースキャスターが定評通りの成果をあげているか、
有意水準5%で検定してみましょう。
1)データを登録
> mydata82=c(4.5,5.8,6.3,4.6,6.1,4.9,5.7,4.9,5.2,5.9)
2)t検定(平均5・上側検定)
> t.test(mydata82,mu=5,alternative=c("greater"))
One Sample t-test
data: mydata82
t = 1.9007, df = 9, p-value = 0.04489
alternative hypothesis: true mean is greater than 5
95 percent confidence interval:
5.013877 Inf
sample estimates:
mean of x
5.39
結論:「5%以下」を棄却(=5%以上取れる)
<<<
途中、
「true mean is greater than 0」「true mean is greater than 5」
と書かれているのを仮説のことだと思ってしまい、
私の「上側」「下側」の解釈が間違っているのかと焦って本を読みかえしました。
「alternative hypothesis」の意味を調べてやっと安心・・・Y(>_<、)Y
外来端末の対応でやむなく・・・
仕事自体は19時半頃終わったのですが、
部署内で唯一の女性同僚である後輩とロッカーで1時間半立ち話をしてました(笑)
今からごはん食べてお風呂に入り、またRの練習をします。
21日間続けられたことは習慣になるそうなので、
時間がない時にも少しだけでも触るようにしたいと思います。
>>>
ただいま0時。
基礎統計の教科書の例題を使って検定をしてみました。
「異なる業種間で賃金格差が存在しているかどうかを調査するために
一部上場企業の金融業と製造業から総合職(入社5年目)の社員を
それぞれ10名ずつ無作為抽出したところ、彼らの年間賃金の
データ(単位100万円)は次のようになりました
金融:6.2/5.7/6.5/6.0/6.3/5.8/5.7/6.0/6.0/5.8
製造;5.6/5.9/5.6/5.7/5.8/5.7/6.0/5.5/5.7/5.5
業種間で賃金格差が存在しているかどうかを有意水準5%で
検定してみましょう。ただしどちらの業種ともそれぞれの母集団は
世紀母集団に従い、母集団の分散は等しいと仮定します」
1)「ex8.3.csv」に以下のデータを保存
chingin,shokusyu
6.2,kinyu
5.7,kinyu
6.5,kinyu
6,kinyu
6.3,kinyu
5.8,kinyu
5.7,kinyu
6,kinyu
6,kinyu
5.8,kinyu
5.6,seizo
5.9,seizo
5.6,seizo
5.7,seizo
5.8,seizo
5.7,seizo
6,seizo
5.5,seizo
5.7,seizo
5.5,seizo
2)Rでcsvファイル読み込み
>mydata80=read.csv("ex8.3.csv")
3)t検定(等分散)実行
>t.test(mydata80$chingin~mydata80$shokusyu,var.equal=T)
Two Sample t-test
data: mydata80$chingin by mydata80$shokusyu
t = 3.0339, df = 18, p-value = 0.007139
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.09225527 0.50774473
sample estimates:
mean in group kinyu mean in group seizo
6.0 5.7
4)等分散性の検定
>var.test(mydata80$chingin~mydata80$shokusyu)
F test to compare two variances
data: mydata80$chingin by mydata80$shokusyu
F = 2.6667, num df = 9, denom df = 9, p-value = 0.1601
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6623623 10.7359844
sample estimates:
ratio of variances
2.666667
<<<
p値だけを見て
「業種間に差あり・金融業が高い」「分散は等しい」
と読み取るだけでOK?
・・・なのかよくわからず~
仕事自体は19時半頃終わったのですが、
部署内で唯一の女性同僚である後輩とロッカーで1時間半立ち話をしてました(笑)
今からごはん食べてお風呂に入り、またRの練習をします。
21日間続けられたことは習慣になるそうなので、
時間がない時にも少しだけでも触るようにしたいと思います。
>>>
ただいま0時。
基礎統計の教科書の例題を使って検定をしてみました。
「異なる業種間で賃金格差が存在しているかどうかを調査するために
一部上場企業の金融業と製造業から総合職(入社5年目)の社員を
それぞれ10名ずつ無作為抽出したところ、彼らの年間賃金の
データ(単位100万円)は次のようになりました
金融:6.2/5.7/6.5/6.0/6.3/5.8/5.7/6.0/6.0/5.8
製造;5.6/5.9/5.6/5.7/5.8/5.7/6.0/5.5/5.7/5.5
業種間で賃金格差が存在しているかどうかを有意水準5%で
検定してみましょう。ただしどちらの業種ともそれぞれの母集団は
世紀母集団に従い、母集団の分散は等しいと仮定します」
1)「ex8.3.csv」に以下のデータを保存
chingin,shokusyu
6.2,kinyu
5.7,kinyu
6.5,kinyu
6,kinyu
6.3,kinyu
5.8,kinyu
5.7,kinyu
6,kinyu
6,kinyu
5.8,kinyu
5.6,seizo
5.9,seizo
5.6,seizo
5.7,seizo
5.8,seizo
5.7,seizo
6,seizo
5.5,seizo
5.7,seizo
5.5,seizo
2)Rでcsvファイル読み込み
>mydata80=read.csv("ex8.3.csv")
3)t検定(等分散)実行
>t.test(mydata80$chingin~mydata80$shokusyu,var.equal=T)
Two Sample t-test
data: mydata80$chingin by mydata80$shokusyu
t = 3.0339, df = 18, p-value = 0.007139
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.09225527 0.50774473
sample estimates:
mean in group kinyu mean in group seizo
6.0 5.7
4)等分散性の検定
>var.test(mydata80$chingin~mydata80$shokusyu)
F test to compare two variances
data: mydata80$chingin by mydata80$shokusyu
F = 2.6667, num df = 9, denom df = 9, p-value = 0.1601
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6623623 10.7359844
sample estimates:
ratio of variances
2.666667
<<<
p値だけを見て
「業種間に差あり・金融業が高い」「分散は等しい」
と読み取るだけでOK?
・・・なのかよくわからず~
今日もRの練習で、t検定のところをやっています。
少し混乱中・・・下に整理したいと思います。
●平均値の検定
→t.test(データ変数,mu=平均値)
→t.test(データ変数,mu=平均値,alternative=c("less")) 下側検定
→t.test(データ変数,mu=平均値,alternative=c("greater")) 上側検定
→t.test(データ変数,mu=平均値,conf.level=0.9) 90%信頼区間
◎正規分布を仮定できる
●2標本の平均の比較(対応なし:別々の対象からとられたサンプル)
→t.test(データ変数~群,var.equal=T) 等分散の場合
→t.test(データ変数~群) 等分散ではない場合(welchの検定)
→var.test(データ変数~群) 等分散性の検定
●2標本の平均の比較(対応あり:同じ対象からとられたサンプル)
→t.test(データ変数1,データ変数2,paired=T)
◎正規分布の仮定なし
●Wilcoxon順位和検定(対応なし:別々の対象からとられたサンプル)
→wilcox.test(データ変数~群)
●Wilcoxon符号付順位検定(対応あり:同じ対象からとられたサンプル)
→wilcox.test(データ変数1,データ変数2,paired=T)
パターンは把握できたように思います。
自分のデータを使って検定してみたいものですが、
まずは一通り資料を追ってからにします。
少し混乱中・・・下に整理したいと思います。
●平均値の検定
→t.test(データ変数,mu=平均値)
→t.test(データ変数,mu=平均値,alternative=c("less")) 下側検定
→t.test(データ変数,mu=平均値,alternative=c("greater")) 上側検定
→t.test(データ変数,mu=平均値,conf.level=0.9) 90%信頼区間
◎正規分布を仮定できる
●2標本の平均の比較(対応なし:別々の対象からとられたサンプル)
→t.test(データ変数~群,var.equal=T) 等分散の場合
→t.test(データ変数~群) 等分散ではない場合(welchの検定)
→var.test(データ変数~群) 等分散性の検定
●2標本の平均の比較(対応あり:同じ対象からとられたサンプル)
→t.test(データ変数1,データ変数2,paired=T)
◎正規分布の仮定なし
●Wilcoxon順位和検定(対応なし:別々の対象からとられたサンプル)
→wilcox.test(データ変数~群)
●Wilcoxon符号付順位検定(対応あり:同じ対象からとられたサンプル)
→wilcox.test(データ変数1,データ変数2,paired=T)
パターンは把握できたように思います。
自分のデータを使って検定してみたいものですが、
まずは一通り資料を追ってからにします。
今日はとっても楽しみにしていた勉強会。
・グループ間の対照比較(コントロール)が必要
・交絡(複数の要因に影響を及ぼす因子)調整が必要
・RQ(リサーチクエスチョン)を構造化
・構造化抄録(⇔従来の抄録IMRAD:背景・方法・結果・考察)を作成
RQは「疑問を構造化する」という作業で
・P:Patient Or Participants(誰に?)
・E/I:Exposure/Intervention(何によって?/何をすると?)
・C:Comparison(何と比較して?)
・O:Outcome(どうなる?)
という形にすることだそうです。
サンプルをこちらに当てはめる練習を行ったのですが、なかなか難しかったです。
「RQは研究の途中で忘れがちになる」「最初のRQを大事に」というのは
なんだかわかる気がしました。
今度院内研究などで何らかの研究を行う際には、
最初にきちんと概念モデルや研究デザインを作りたいと思います!
・グループ間の対照比較(コントロール)が必要
・交絡(複数の要因に影響を及ぼす因子)調整が必要
・RQ(リサーチクエスチョン)を構造化
・構造化抄録(⇔従来の抄録IMRAD:背景・方法・結果・考察)を作成
RQは「疑問を構造化する」という作業で
・P:Patient Or Participants(誰に?)
・E/I:Exposure/Intervention(何によって?/何をすると?)
・C:Comparison(何と比較して?)
・O:Outcome(どうなる?)
という形にすることだそうです。
サンプルをこちらに当てはめる練習を行ったのですが、なかなか難しかったです。
「RQは研究の途中で忘れがちになる」「最初のRQを大事に」というのは
なんだかわかる気がしました。
今度院内研究などで何らかの研究を行う際には、
最初にきちんと概念モデルや研究デザインを作りたいと思います!
明日はずっと前にも書いた勉強会です。久々に大学へ。
・・・と言っても医学部なので、
私が通っていたところからは少し離れているのですが
久々に大学近くのつけ麺屋さんに行こうかなと♪
お楽しみができたので今日もR演習がんばります~
・・・と言っても医学部なので、
私が通っていたところからは少し離れているのですが
久々に大学近くのつけ麺屋さんに行こうかなと♪
お楽しみができたので今日もR演習がんばります~
Rの続きをやっています。
昨日は0時近くになると眠くて、
コマンドを打ち込んでも説明文と違うグラフができてるな~でも眠い・・・なんて。
今日やってみたら、ちゃんと描画されました。
恐らく転置が抜けていたんだろうなぁ
棒グラフ・円グラフが終わり、次は記述統計量です。
仮説検定がすぐそこまで来てますが、
既に眠いので明日ゆっくり見よう~ってなりそう。
昨日は0時近くになると眠くて、
コマンドを打ち込んでも説明文と違うグラフができてるな~でも眠い・・・なんて。
今日やってみたら、ちゃんと描画されました。
恐らく転置が抜けていたんだろうなぁ
棒グラフ・円グラフが終わり、次は記述統計量です。
仮説検定がすぐそこまで来てますが、
既に眠いので明日ゆっくり見よう~ってなりそう。
今日の夕方は、当院の機能に特化したリスクというテーマでの 勉強会でした。
薬剤関連の話が多いのは製薬会社の方だから?と穿った見方をしがちですが
卒論で医療事故データを扱った時もやはり薬剤関連が医療事故のトップだったのを
思い出しました。
へぇーと思ったのは「薬剤の見直し」もリスク対応というお話です。
病院は診療契約を結んでいる以上標準以上の医療を提供する義務があり
合っていない・効果がない薬剤を使用し続けることは契約違反ということで。
これからお風呂に入り、Rの続きをしたいと思います。
薬剤関連の話が多いのは製薬会社の方だから?と穿った見方をしがちですが
卒論で医療事故データを扱った時もやはり薬剤関連が医療事故のトップだったのを
思い出しました。
へぇーと思ったのは「薬剤の見直し」もリスク対応というお話です。
病院は診療契約を結んでいる以上標準以上の医療を提供する義務があり
合っていない・効果がない薬剤を使用し続けることは契約違反ということで。
これからお風呂に入り、Rの続きをしたいと思います。
電子カルテ準備の半年+稼働後1か月は、プライベートがないような状態でしたが
「緊急対応の山」だった少し前の状況からは落ち着いてきました。
ここら辺で、自分の試験準備や勉強のために使える時間も復活させたいというのと
(食べに行ったりは犠牲にしていませんでした・笑)
あとは体力・・・と いうよりも気力が湧かなくなってきているように最近感じているので
今月からはできるだけ早く帰るつもりです。
先日のデータ二次利用勉強会で資料をいただいたので
そちらに従ってRの練習と統計学の復習を進めていこうと考えています。
並行して情報セキュリティスペシャリスト試験のリベンジも図りたいです(笑)
勉強会の時、私の端末ではヒストグラムや箱ひげ図のプロットができなかったので
今日はまずはそちらから調べようと思います~
>>>
「par(mfrow=c(2,1))」を「par(mfrow=c(1,1))」に変更しただけで
描画されるようになりました。
当日も同じようにしたつもりでしたが、なんでできなかったんだろう??
「緊急対応の山」だった少し前の状況からは落ち着いてきました。
ここら辺で、自分の試験準備や勉強のために使える時間も復活させたいというのと
(食べに行ったりは犠牲にしていませんでした・笑)
あとは体力・・・と いうよりも気力が湧かなくなってきているように最近感じているので
今月からはできるだけ早く帰るつもりです。
先日のデータ二次利用勉強会で資料をいただいたので
そちらに従ってRの練習と統計学の復習を進めていこうと考えています。
並行して情報セキュリティスペシャリスト試験のリベンジも図りたいです(笑)
勉強会の時、私の端末ではヒストグラムや箱ひげ図のプロットができなかったので
今日はまずはそちらから調べようと思います~
>>>
「par(mfrow=c(2,1))」を「par(mfrow=c(1,1))」に変更しただけで
描画されるようになりました。
当日も同じようにしたつもりでしたが、なんでできなかったんだろう??