有意差検定と分散分析
2012-06-01 22:00:15 テーマ:統計 beluga2002の投稿先日、仕事で訳した文書に統計解析が出てきました。
そういえば以前も統計解析が出てきて、このブログに備忘録的に記事を書いたよなーと思い出し、会社で自分のブログの当時の記事を探してみました。
しかし、端から見たら仕事さぼってブログみてるような感じ。
しかも、ブログや SNS などのサイトは基本的にセキュリティソフトにブロックされるので、「業務の目的でそれでも見る」みたいなボタンをクリックしないと開かないという…。
いや、これ、仕事の一環なんですよ。
と、心の中で言い訳をしながら(別に誰にもつっこまれませんけど)、自分のブログを見ていたのですが。
記事が見つからない!
そうして閲覧時間は延びていき、ますますさぼってる感じに…。
さて、今後、振り返ったときにこの轍を踏まないため、テーマに「統計」を追加して、前回の記事も今日の記事もそれに分類しました。
コレで万事OK。
ということで本題です。
翻訳した文書では2つの Study(1つのバリデーションを2つのパートに分けた感じ)が行われていました。
そしてそれぞれで、別の統計解析が行われていました。
ひとつは平均値の有意差検定、もうひとつは分散分析でした。
今回は、Excel の操作法ではなくて、これら検定の意味をまとめておきたいと思います。
【平均値の有意差検定(Excel では、t 検定)】
これは簡単で、2群の平均に優位な差があるかを確認するものです。
よくある例えで、日本人男子の平均身長とアメリカ人男子の平均身長に優位差があるかどうかを検定する、というものがあります。
方法としては、まず日本人男子100人の身長を測ってその平均をとり(Ja とする)、次にアメリカ人男子100人の身長を測って平均をとり(Aa)、Ja 値と Aa 値の間に優位差があるかどうか、を見るものです。
【分散分析(Excel では、ANOVA)】
分散分析は、3群以上の値に優位な差があるかどうかを確認するものです。
上の例えを使えば、これにフランス人男子の平均身長と、さらに中国人、ロシア人などを比べたいときに使います。
それぞれのペアについて有意差検定を行っても良いのですが、手間がかかりますから…。
(3群間の比較であれば3回(3C2)、4群であれば6回(4C2)、5群だと10回(5C2)等々…)
なので分散分析を使って、一気に検定してしまおうというものです。
ただし、注意しなければいけないのは、分散分析では、「有意差あり」と「有意差なし」という判定しかできず、比較した群間の「どこに」有意差があるかまではわからないのです。
なので、「有意差あり」の結果が出た場合は、それぞれのペアについて有意差検定を行わなければなりません。
それを一気にやってくれる手法として「多重分析」というのがあります。
ただし、これはエクセルには付いていない機能なようです。
さて、分散分析が何かが分かったところで、問題が発生しました。
翻訳を担当した文書では、「A と B、C、D の間に有意差が見られた…」のように、明らかに多重分析的なことをしていたのです。
分散分析だけではどのペアに有意差があるかわからないんじゃなかったっけ?
色々調べてみると、平均値をプロットしてその上下に標準偏差(標準誤差)分のヒゲをつけたグラフを作成し、そのヒゲが重ならなければ有意差あり、というような記述があるサイトが見つかり(家のパソコンで見つけたのではないので、今は分かりませんが…)、そのようなグラフも文書には掲載してあったので、これだ、と思いました。
翻訳依頼者とも相談して、原文通り、「分散分析を行い、有意差を判断した…」と訳すことにしました。
判定基準が分散分析の結果だけに頼っているわけではなかったようなので…。
それにしても、科学論文(実験論文?)の英訳は難しい!
統計解析以外に、実験論文の英語を勉強しないとだめだなと痛感したのでありました。








