ほたるいかの書きつけ -23ページ目

ABO FAN「理論」の問題点

 いや「理論」というほどたいしたもんではないわけだが。
 彼は言う:思い込みがあれば母集団に差が出ることは明らかだ、と。

 この「理論」は穴だらけなので、検証可能になるように補完しよう。
1. 思い込み(自分は○型なので自分は~な性格)が性格の自己報告に影響を与える。
2. 標本において、血液型と性格の自己報告に相関が生じる。
3. その相関は母集団における差を意味する。

 もちろんそんな単純にはいかない。理論的に考えてみよう。
1. 思い込みがある。
1a. 思い込みにより性格が変化し(自己成就現象)、性格の自己報告が影響を受ける。
1b. 思い込みにより、「真の」性格は影響を受けないが、性格の自己報告が影響を受ける(認知バイアス)。
1c. 血液型ステレオタイプはあるが、自分には当てはまらないと思っており、自己報告には影響がない。
1d. 思い込みはあるが、一貫した「性格」など存在しないので、自己報告には影響がない。
2. 思い込みがない。

*心理学者には怒られそうだが、とりあえず自己報告ではなく他人が判断できるような性格を「真の性格」としておきます。

2の場合ははなから影響がないわけだ。で、ABO FAN氏は、一人でも思い込みがあれば、それは母集団の差を意味するのだと言う。

もちろんそんなことはない。
1aの場合: 母集団で差は生じるが、標本で差が検出できるかは性格が変化した人の数による。
1bの場合: 母集団で差は生じるが、標本で差が検出できるかは自己報告が影響を受けた人の数による。
1cの場合: 母集団に差は生じないし、標本でも差が出ない。
1dの場合: 母集団に差は生じないし、標本でも差が出ない。そもそも「血液型と性格」の相関を考えることが無意味。
従って、母集団における差、という観点からは、「実際に/自己報告で性格が変化した人がいれば、差が変化した人がいる」というトートロジーを語っているに過ぎず、標本における差、という観点からは、母集団における差の大小により、サンプルサイズが小さければ差が検出できない可能性は十分にある。
 ところが、ABO FAN氏は、適切にデザインされた調査なら必ず検出できるという。その際、どれだけの人が性格/自己報告の性格が変化したかは問わないのである。つまり、一人でも変化していれば、母集団に差があり、それを検出できるような調査をやれば検出できるはず、とこれまたトートロジーの世界に入っているのである。だったら、もし一人だったら全数調査やらなきゃ無理じゃん。

というわけで、理論的にABO FAN氏の「理論」は無意味であることがわかった。
 次に、実際の調査の手順から考えてみよう。
 実際は全数調査などできないので、標本抽出をする。第一歩は、標本において差が有意に検出されるかどうかである。
1. 差が有意であった。
2. 差が有意でなかった。
2の場合は、そこで終わり。こだわるならば、より大きいサンプルサイズで調査するか、サンプリングに問題がないか調べることになる。1だったら、最初のハードルはクリア。次に、その有意の意味を問うことになる。タイプIエラーということはないのか、疑似相関ではないのか、等々。様々なテストを繰り返し、ようやく母集団における差であろうと推測できるようになるわけである。
 無論、「有意」ってのが5%とかそんなんじゃなくて、もっと激しく強いものであれば、一発の調査で色々なことを言っても構わないわけだが、血液型と性格の相関はそうではない。有意だったり有意じゃなかったりする。もし有意なのがタイプIエラーなら、調査の回数を増やせば増やすほど、一定の割合で有意である調査も増えていくことになる。だから、「有意」ということの意味をきちんとおさえないと、結果の解釈がトンチンカンなものになる。単なる「お約束」で「有意」だから母集団に差がある、なんてのはダメなんですよ!

 で、その有意がリアルだということになって、漸く、その有意の中身が吟味されていくことになる。つまり、intrinsic な差なのか、思い込みなのか、等々(いやもちろん実際の研究ではそこまで想定してデザインを考えるわけだけれども)。

 というわけで、検出された「差」が思い込みによるかどうかはこの最終段階になってはじめて議論されることなのだ。

 つまり、ABO FAN「理論」は実験的にも間違っている。

ついでに言えば、
> 抽出された標本をいくら分析しても、母集団に差があるかどうかはわからない、と言っているんですよね?そうとしか読めませんが。

ご承知のように、統計だけなら「母集団に差があるかどうかはわからない」とういうのはそのとおりです。
ただ、“誤差”が5%なら認めよう、というのが共通の「お約束」です。
だから、統計的検定だけではなく、できれば別の手法も使うべきだと繰り返し言っています。
だそうなので(こちら のコメント#32)、ABO FAN氏曰く、統計で得られた結果から母集団を推測してはならない、ただし、なんか知らないけど「お約束」に従って5%なら母集団について推測してもいいよ、とのことである。
 こんなこと言われたら、「お約束」の意味ちゃんと理解してる?と聞くのも当然ですよね。ね。

いくらなんでも

ええとさっきABO FANさんのブログを見たら、こんなエントリ が上がってました。あんまりにもスゴいので、引用します(一部省略)。
FSMさん『「血液型と性格」の正しい理解のために:山崎-坂元(1991)』の正しい理解のために(おまけ)

(略)

坂元さん自身が述べているのは、
 年代を遡るほど差が小さくなる→昔は差がなかった
ということになります。まあ、これは常識的な結論でしょう。
しかし、この「自己成就現象」の傾向を単純に延長するなら、
 年代が下るほど差が大きくなる→そのうち強い相関になる
ということになります。:-p
ということは、考察の、
2. 血液型と性格の自己報告との間の相関は、弱いが認められた。さらに、一般の人々の性格の自己報告は、大学生の血液型ステレオタイプに合致していることがわかった。
6. ただし、血液型と性格の自己報告との間の関連は小さいものであり、その差を統計的に検出するには数千人単位のデータを要するのであり、個々人単位に「▽型の人は△△だ」といった主張はできないと思われる。
は否定されてしまうのです。
そんな馬鹿な! そのうち強い相関になるなんてありえない!! というなら、昔は差がなかったという推測も取り消さないといけなくなるのです。
私も、つい最近気がつきました。
なんでやねん、と思わずつぶやいてしまいましたが、アナタもそうですよね?ね?

 「そのうち強い相関にな」りかねないから、自己成就現象があるかどうかが気になるわけですよ。私が前のエントリで、血液型性格判断を否定したいという立場からはこの現象があってくれたほうが血液型性格判断の非人道的な側面が明瞭に表われるので都合が良いということを述べたわけだが、それは、当然「そのうち強い相関になる」可能性が読み取れるので、そう言っているわけです(無論、どこまでも単調に強くなるのか、あるいはそもそも山崎・坂元論文で検出された自己成就現象は本当にリアルなものなのか、という議論はあるわけですが)。

 まあこれをお読みになっている皆さんはもうお分かりだと思いますが(約一名を除いて)、まとめておきます。

  1. (少なくとも昔は)血液型と性格に相関はほぼなかった。
  2. もし自己成就現象がリアルなら、将来、強い相関となる可能性がある→だからそんなことにならないように、血液型性格判断は批判されなければならないし、安易にテレビ番組で肯定的に取り上げるようなことはしてはいけないし、『an・an』に代表されるような雑誌での取り上げ方や「○型○○の説明書」みたいな形で肯定するような書籍に対しては批判の声をあげていかなければならない。
  3. もし自己成就現象がフェイクなら、いまにおいても相関はほぼない。
言わずもがなですが、「昔は差がなかったという推測も取り消さないといけな」いのではなくて、「今でも相関はごくごく弱い(あったとしても)」ということですね。
 …詭弁にも程がある。自覚してるかどうかわからないけど。

 ていうかさ、ホントについ最近気づいたの?

松下電工技報から

 原典シリーズというわけではないけれども、以前、某Yahoo掲示板でも松下の技報を一部解説したことがあったので、イキオイに乗ってそれもここに転載しておこう。その掲示板でのやり取りの一部は、サイドバーの「マイナスイオン」のところをクリックしていただければ転載しているエントリもあるのだが、肝心の技報の中身については向こうに書きっぱなしだったので、こちらにも転載しておく(まあ自分用にということなのだが)。それと、パナソニックに社名変更したことに伴い、技報のPDFのURLが変わってしまったので、そのメモも兼ねて。

 だいたい一年近く前の話でもあるし、その後、きちんとフォローしていないので、nanoeについてはなにか進展があるかもしれないのだが、もし御存知の方がいらっしゃれば、教えていただけると有り難いです。

 発端は私がこのブログでSSFSさん(ssfs2007さん…最近はssfs2009さんになられているようで)に対する批判を載せたこと。で、具体例として、No.1297 にて以下の二つの「技報」を挙げた。

リンク先はどちらもPDFなので注意。
マイナスイオンの毛髪への影響 」高野弘之他、松下電工技報 No.79, pp.110 (Nov. 2002)
帯電微粒子水の毛髪および頭皮への改善効果 」松井康訓他、同vol.56, No.1, pp.39 (2008)
なお、上記PDFへのリンクがあるHTMLのページは、それぞれ
http://panasonic-denko.co.jp/corp/tech/report/79j/main02.html
http://panasonic-denko.co.jp/corp/tech/report/561j/main02.html
である。

 以下の文章は、No.1330 , No.1332 からの転載である。長くて限界を越えていたので掲示板では二つにわけた。間が一つ飛んでいるのは、たしか一回なにかミスって欠番にしたのだと思う。文中のリンクはそのままにしておきます。必要な時は上のリンクを辿ってください。

▼▼▼以下、Yahoo掲示板より転載▼▼▼

こんばんは。

>従来のドライヤーにはなかった効果を何がもたらしたか。いまのところ、マイナスイオンの効果を否定する材料を持ち合わせていないので、とりあえずメーカーが言うようなマイナスイオン(おそらく広義には帯電微粒子水)の効果があるのだろうと考えています。放電による帯電微粒子水の放出は、物理的・化学的にみても興味深い現象です。
>
>帯電微粒子水は関与しないという材料が出てくればさらに検証を進め、もしもマイナスイオンの効果が否定されるのであれば、思う存分ニセ科学扱いしてやるだけの話です。これは過去にも書いていること。否定する材料も探していますが、なかなか見つかりません。どなたか見つけてみてください。

一消費者ということであればそれでいいのだと思います。「このドライヤー、性能いいなあ。マイナスイオンのおかげだって?ふうん」という反応が普通ですよね。
 でも、「検証」ということになると、それでいいのでしょうか?やはりヌル仮説として(1)以前のドライヤーとの性能差はない、(2)(性能差があるとして)その性能差は「マイナスイオン」のせいではない、を設定し、議論を進めるのが通常の方法だと思います。
 で、下の「技報」やあちこちで見られる「性能が良い」というクチコミ的報告から、私を含め多くの人は「定量的には、あるいは厳密にはともかく、どうやら仮説(1)は棄却してもよいのではないか(つまり、ドライヤーの性能は良くなっている)」という意見に傾きつつあるのではと思います(少なくとも私はそうです)。
 問題は仮説(2)の方です。少なくとも私は、下に示してある技報からは、仮説(2)を棄却するに足るデータが出ているとは読み取れませんでした。また、同じくそのデータから、仮説(2)を検証(あるいは棄却)するためには、もっと定量的な調査が必要であり、体験談で検証できる精度よりももっと詳細な検証が必要だと考えています。

>ドライヤーは医薬品ではないので、ダブルブラインド評価は必要条件ではありません。他人が見ても髪質が変わったことが分かるときがありますから。いったんニセ科学とみなしたものについて、高いハードルを課すのは不健全なニセ科学批判者のやり口です。ご注意ください。

医薬品でなければダブルブラインド評価をする必要がないのはなぜでしょうか?「他人から見ても髪質が変わったことが分か」ったとしても、それがドライヤーのせいなのか、シャンプー・リンスを変えたからなのか、栄養状態が最近はいいのか、睡眠をしっかり取れているのか、など考慮すべき要因が多々あり、それらを一つ一つ排除していかなければ本当の効果がなにによってもたらされたのかは分からないと思います。
 「利き酒」なんてのもありますよね。これも一種のブラインドテストです。「味」は飲めばわかりますけど、プロでも様々な思い込みに左右され、このような評価方法を採らないと本当の味の違いはわからない、と言うことなんだと思います。
 上で示した仮設(1)については、各種の体験談で大体おおまかには判定して良さそうな気がしますが、仮設(2)の検証となると、実験のデザインをきちんと考えた検査をしないとわからない、というのが、今のところの私の結論です。

> 技報はこれでしょうか?
> http://www.mew.co.jp/tecrepo/561j/pdfs/561_06.pdf
>松下は有意な差と言い、yokoyamahotchillipeppersさん(主語はこれでいいでしょうか?)は誤差の範囲と言う。それについて、私はなんとも申せません。効果が実際にあるのに、それがメーカーの言うナノイーの効果ではない、とみるならば、効果をもたらした原因を何か示さないと次の議論が始まりません。

その「技報」の2.1.2から引用します:「毛髪のしなやかさを向上させる効果は、『nanoe』イオンがマイナスイオンよりも水分量が多いため、毛髪水分率が増加するという仮説を立てて検証する」つまり、ヌル仮説としては、「毛髪水分率は増加しない」です(勿論、これをクリアしても、次には「毛髪水分率の増加は『nanoe』イオンのせいではない」というヌル仮説を棄却する必要がありますが)。
 ちょっとややこしくなりましたが、要するに、「nanoe」のおかげであるというための必要条件(十分条件ではありません)として、毛髪水分率が増加しているかどうか検証しましょう、ということですね。
 この節の終わりのほうにはこう書いてあります:「その結果を図5に示す。この図から、時間経過に関係なく毛髪水分率は『nanoe』イオンが一番高く、次いでマイナスイオンが高いことがわかる。」では次のページの図5を見てみましょう。横軸に経過時間、縦軸に水分率が取ってあります(それぞれの定義はすみませんが当該『技報』をご覧ください>皆様)。これを見ると、処理直後は nanoeが一番水分率が高く、次いでマイナスイオン、イオンなし、となっています。マイナスイオンとイオンなしは平均値の順番はその通りですが、エラーバーが平均値の違いを大きく上回っているため、マイナスイオンとイオンなしの順番について語ってはいけません(これは統計のルールです)。nanoeとマイナスイオンについては、両者のエラーバーは若干重なっているものの、それぞれの平均値にまではのびてはいません。なので、通常の感覚としては、nanoeの場合は若干水分率が高いね、と読むと思います。
 問題の一つ目はその後です。例えば4時間後は、3者とも、それぞれのエラーバーが互いの平均値のズレを上回っています。つまり、3者に違いはない(正確には「違いがあるとはいえない」)ということになります。2時間後、8時間後もそうです。要するに、ヌル仮説を棄却できない、ということです。
 問題の二つ目は、例えば経過時間とともにどれだけ水分が抜けるかを考えると、むしろnanoeの方が急速に水分率が下がっている、ということです。グラフの縦軸を「水分率」ではなく、処理直後の値に対する相対的な水分率にする(つまり、処理直後を1とし、時間ともに処理直後の水分率に対してどれだけの水分率を保持しているか)と、nanoeの「悪さ」はよりはっきりするように思われます。もちろんグラフの縦軸になにを取るかは何を見たいかによりますから、絶対的な水分率を取るか相対的な水分率を取るかは議論の分かれるところだと思います。私の印象としては、時間変化を調べるのであれば、処理直後の条件は揃えたほうがいいのでは、と思っています。

 もしこの『技報』が査読誌に投稿されて、私がレフェリー(査読者)になったとしたら、この部分については次のようなコメントをつけるでしょう:「図5を見る限り、nanoeが毛髪水分率が一番高いとは言えない。それにもかかわらず本文で一番高いと主張するのは強すぎである。このコメントを削除し、有意な差を検出できなかったと書くか、せめて、有意な差は検出できなかったが過去の我々の研究から違いがある可能性があるため今後はサンプルを増やしより良い精度で検証を行いたい、程度に主張を弱めて書くべきである」。
 ちなみに私は本業で査読誌に論文を投稿しますしレフェリーがまわってくることもあります。このようなやり取りはしょっちゅうあります。やっぱり、みんな自分のデータがかわいいのですよね。だから、ついついデータから読み取れる以上のことを主張してしまう(私もやっちゃうときがあります)。なので、他人が冷静に「それだけの主張ができるデータか?」という目で検証する必要があるのです。
(すいません、だいぶ長くなってしまいました)

▲▲▲以上転載終わり▲▲▲

で、これに対するssfs2007さんのレスがこれ。No.1339

yokoyamahotchillipeppersさんもfsm_fireflysquidさんも、長文だけれどインスパイアがまったく感じられない返信でがっかりしました。そのあたりの主張はもうおなかいっぱいなんで、「イオンドライヤーの効果はこれこれ。それをもたらすのはマイナスイオン(帯電微粒子水でも何でもいいです)ではなくてこれこれ」という切れ味のいい主張を見せてくれませんか。ほかの方でもいいです。

それなりに苦労して書いたら「おなかいっぱい」でしたからね。この衝撃は大きかったですね。なんか批判してくるかと思ったら、「おなかいっぱい」だもんね。

 そして、技報がユーザーの報告の調査もしているのに、それは完全無視。で、挙句の果てに、
帰無仮説に逃げないこと
という迷言をお吐きになられましたでございますよ(No.1491 )。

 最近あちこちのコメント欄に元気にお出ましになられてるようですが、ボロクソに批判されてるブログまで、まるで自分を応援しているかのように他所のブログで引用するあたり、なんだかスゴイなあ…と思っていたのでした。

「血液型と性格」の正しい理解のために:山崎-坂元(1991)その2(追記・修正あり)

前エントリ に引き続き、以下の論文の後半を紹介する。
   山崎賢治、坂元章「血液型ステレオタイプによる自己成就現象-全国調査の時系列的分析-」、1991、日本社会心理学会第32回大会発表論文集、288-291

   1. 問題と目的
   2. 方法
   3. 結果(この章の前半まで前エントリ 、後半以降は本エントリ)
   4. 考察

3. 結果
重回帰分析
 回帰分析を実行するため、値に数値をふった(A型:0、B型:1、男性:0、女性:1)。主効果として、血液型・性別・年齢・調査年次の4つを用いた。そして多重共線性の影響を避けるべく(一次従属な変数があると困るので)、これらを標準化(平均=0、標準偏差=1)した後、それらのうちの2変数をかけあわせることで2次の交互作用項6変数を作成した。つまりは血液型と調査年次の交互作用により「A-B」得点がどう応答するかを見る、ということだ。
 以上の10変数を説明変数とし、「A-B」得点を目的変数として、ステップワイズ法(これについては申し訳ないが私は説明できない)により重回帰分析を行った。その結果が Table 4 である。
 ただし、Table 4 も、これ以降のグラフも、10変数すべてについて載っているわけではない。そこが、この論文の結果の解釈をする際の困難さを与えている。
ほたるいかの書きつけ
 論文では、(1)年齢、(2)血液型、(3)調査年次、(4)血液型と調査年との交互作用、の順に説明しているが、前エントリでも触れた(2)血液型から先に解説しよう。

【血液型】
 前エントリでも出した Fig.6 をもう一度示す。
ほたるいかの書きつけ
前回触れたように、8.15, 2.71 という「A-B」得点(100倍されてこの点数であることに注意)は、おそらく血液型・性別・年齢・調査年次で220のセルを作り、その上でセル同士を重み1で平均して血液型別の得点を出したのでは、と推測するが、そうやって得られたものである。ここで Table 4 を見ると、上から2番目の血液型の欄では、標準偏回帰係数βが-0.240となっている。これについてちょっと調べてみよう。
 数値化するために、最初にAを0、Bを1としたことは上で述べた。これを正規化(標準化)する。
 まず、A型は12466人、B型は6852人、合わせて19318人である。ここから平均値は
(12466*0 + 6852*1)/19318 = 0.3547
であり、標準偏差は 0→02=0, 1→12=1 であるので、(自乗平均-平均の自乗)の平方根を求めて0.2289である。正規化するには元の値(0または1)から平均値を引き、標準偏差で割れば良い。すると、Aは -0.7414、Bは1.3489 となった。これを使うと、ほぼ平均0、標準偏差1となることが確認できる。
 次に、回帰直線を求める。単純に考えて、いまは2点しか通っていないので、その2点を結ぶ直線の傾きを求めよう。これは単純に、
β = (0.0271-0.0815)/(1.3489+0.7414) = -0.026
となるはずである。
 ところが、Table 4 を見ると、β=-0.240となっている。一桁値が違う。これは一体どういうことだろうか?ここは残念ながら理解できないままである。なにか全然違う方法でやっているのだろうか?わかる方がいれば、御教示いただけると有り難い。私が重回帰分析あるいは「標準化」について理解していないというだけならいいのだが。

【年齢】
 次に、年齢と「A-B」得点の関係を見てみよう。私としては、これが実はこの論文で一番の衝撃であった。Fig.5 がそれである。
ほたるいかの書きつけ
見てわかるとおり、明らかに年齢が高くなるに従い「A-B」得点が高くなっている。10代と50代では、なんと0.25点も違うのだ(とりうるレンジが-1~+1であることに注意)。A型とB型では0.055点しか違わなかったのに比べ、およそ5倍も差があるのである。はっきり言えば、「A-B」得点を決めるプライマリーは年齢であり、血液型ではない。もし年齢によってA型の人数とB型の人数が少し異なれば、色々説明できてしまいそうな勢いである。
 無論、サンプルサイズがとても大きいので、年齢ごとの血液型分布のゆらぎですべて説明できるわけではないだろう。ごく単純に各年代に等分配されていれば、各年代でB型だけでも1400人程度いる計算になる。だから、±40人程度が予想される誤差であり、これだけではたとえ年齢で0.25点違うといっても、A型とB型との間でその1/5「も」ある違い(0.055点)を説明することは無理だろう。
 とはいえ、やはりこちらがプライマリーなのであるから、年齢ごとの血液型分布(A型とB型の人数)も示して欲しかったと思う。

(追記)修正ついでにこんな図を作ってみた。年齢による「A-B」得点の違いが、血液型に比べてどれくらい大きいかを示す図である。ここでA型、B型の得点は、Fig.6 のものである。
ほたるいかの書きつけ


【経時的変化】
 さて、いよいよ年次経過の話に移る。しかしまずは血液型別ではなく、全体の傾向を見てみよう。
 下に示すFig.7は、「A-B」得点が時とともにどのように変化してきたかを示すものである。白抜き四角は各年次の得点、破線は回帰直線である。横軸に調査年、縦軸に「A-B」得点を100倍した値をプロットしている。
 これを見ると、最近になるにつれ、「A-B」得点が減少している、つまり「B型的」になっていることが見て取れる(念のために言っておくと、「B型的」とカッコをつけたのは、もちろん美術大生の血液型ステレオタイプにおいて「B型的」という意味だからである。実際のB型の性格と関係あるかは最後になって結果としてわかることである)。論文の文章を引用すると、
日本人は「B型的」性格になりつつある。
ということになる。
 この理由はもちろんわからないが、これも年齢による「A-B」得点の違いが大きな影響を及ぼしていると見るべきであろう(無論、なぜ年齢によって違うのか、というのが本質的であろうというだけで、その理由はここではわからない)。
 さて、回帰直線が引かれると、それにつられて右に下がっているような気になるものである。実際、回帰分析をやってそういう傾きの直線になったのだから、データ解析の結果としてそれが間違っているというわけではない。しかし、注意しなければならないのは、データ点が単調に減少しているわけではない、ということである。確かに最終年度が一番「A-B」得点は低い。しかし、二番目に低いのはその前年ではなくて、ずっと前の1980年なのだ(グラフが歪んでいなければ)。これは、グラフには描かれていないけれども、各年ごとに大きなエラーバーがつくものと見るべきだ。つまり、サンプリングにより、回帰直線まわりのデコボコを含む程度には大きな誤差がある筈である。これについては、一通りこの論文を論文に沿って紹介したあと、再び議論することにしよう。
ほたるいかの書きつけ

【血液型別の経時変化】
 いよいよお待ち兼ねの、血液型別の経時変化である。とりあえず図を見ていただこう。下のFig.8がそれである。Fig.7と同様であるが、白抜き四角はA型の人のみのもの、プラス記号はB型の人のみのものである。各年ごとに、A型とB型の得点を2:1程度で平均してやると、Fig.7になるはずのものである。
 …と当初は思っていたのだが、実際にそうやって図に描き込んでみると、どうもそうではないようである。単純にA型とB型の得点を足して2で割っているだけのように見える。ということは、前エントリでも少し触れたが、血液型(2)×性別(2)×年齢(5)×調査年次(11)で220のセルを作り、各セル内で平均したあとは、それぞれのセルは対等(重み1)で平均されているのでは、と思わざるを得ない。とすると、Fig.7でプロットされた得点は、「日本人の」ではなくて、B型の日本人のウェイトを重くして平均した得点、ということになってしまう。ここは一つ問題だろう。

 さて、それはそれとして、結果を眺めてみよう。すると、確かに調査年が最近になるにつれ、A型とB型の得点は開きつつあるように見える。これをもって、論文では、
 血液型と調査年次の交互作用が検出された。A型は相対的により「A型的」に、B型は相対的により「B型的」にという変化を示した。これは、血液型ステレオタイプによる自己成就現象を意味する結果である。
と述べている。

 なお、Table 4 にある通り、血液型×調査年の重回帰分析では、結果が5%有意であることが示されている。かなり弱いと言えよう。
ほたるいかの書きつけ

4. 考察
 本章はすべて箇条書きにまとまっているので、そのまま全文引用する。太字は引用者によるコメントである。
  1. 大学生は明確な血液型ステレオタイプを有する。→Table 1
  2. 血液型と性格の自己報告との間の相関は、弱いが認められた。さらに、一般の人々の性格の自己報告は、大学生の血液型ステレオタイプに合致していることがわかった。→合致していると言えるだろうか?相対的には合致していると言ってもよさそうだが、B型の「A-B」得点も正、つまり「A型的」なのである。また、回帰直線を信用するとしたら、1970年代前半には血液型との相関はなくなると推定されることに注意。能見正比古が「血液型人間学」を提唱したころである。
  3. 年々、人々が「B型的」(物事にこだわらず、気がかわりやすい、等)になっていることが示された。これは近年の社会の非抑制化・自由奔放化を示唆するかもしれない。→定性的にはそう言えそうだが、注意すべき点が2点。「年々変化している」のか、「A型的」な高年齢層が徐々にサンプルから抜けているかなのかが不明(無論、若年者がなぜ「B型的」かという問題は残る)。それからFig.7の平均のとりかたに問題がありそうという点。
  4. A型は相対的により「A型的」に、B型は相対的により「B型的」にという変化を示した。それは血液型ステレオタイプによる自己成就現象を示している。これは、「血液型性格学」のマスコミ活動に原因を求められるのかもしれない。→「血液型と性格に強い相関がある」という誤った信念をもたらした「知識汚染」により「血液型と性格」に相関が生じてしまった、と言える(相関を「リアル」と見るならば)。
  5. 従来の研究は、(1)サンプル数が少なかった、(2)単独の特徴毎に分析していた、(3)A型とB型だけではなく、O型とAB型をも含めていた、などにより血液型と性格との関係を見いだせなかったのかもしれない。→そこまでデータをこねくりまわさないと見えない程度の微弱なシグナルである。
  6. ただし、血液型と性格の自己報告との間の関連は小さいものであり、その差を統計的に検出するには数千人単位のデータを要するのであり、個々人単位に「▽型の人は△△だ」といった主張はできないと思われる。→「○型××の説明書」的な本には根拠がまったくないということ(強い相関を仮定しているので)。
  7. 本研究では性格の自己報告を分析対象としたので、いくつかの未解決の問題が残った。それは、(1)血液型と性格との間に実際に関連があるのか、それとも、認知の歪みなのか、(2)自己成就現象に関しても、性格が実際に変化したのか、認知が変わっただけなのか、というものである。→定量的にはデータの取り扱いにも議論の余地があると思われる(後述)。
以上が山崎・坂元(1991)の紹介である。

【FSMによる考察】
 さて、ここから私による批判的考察に移る。「批判的」というのは「懐疑的」と言っても構わないのだが、その理由は、ひとえにこの論文が帰無仮説を棄却しようとしているからに他ならない。帰無仮説を棄却するということは、そこになんらかの意味のある状態があるということであり、それは強い主張である。強い主張をするからには、当然あらゆる方向からの批判が寄せられるものであり、それに耐え抜いた仮説が正しいものとして生き残るのである。それが通常の科学のプロセスである。そういう意味で、私としては、定量的にはともかく定性的にはこの論文が正しいだろうという予想を持ちつつ、考えられる「穴」を探ってみることにする。

 焦点はFig.7, Fig.8だ(本当は年齢の違いも重要だと思われるのだが、年代が10年ごとで調査期間が10年以上なので、示されているデータだけではどうにも考察ができない。考えられる点は既に述べたので、ここでは経時変化に焦点を絞る)。上でも述べたように、年ごとのバラツキが非常に大きい。それが何を意味するかを順次考えていこう。

 まず、図をちょっと改変して(便利な時代になったものだ)、回帰直線を消してしまおう。それを見て、どう思われるだろうか。
ほたるいかの書きつけ
この図から、元の回帰直線がどのあたりを通っていたか、想像できるだろうか。
 次に、最終年度(1988年)のデータを消してしまおう。これはつまり、1987年までのデータしか入手できなかったとしたら、結論がどう変わっていただろうか…という思考実験である。消した場合の図が以下である。
ほたるいかの書きつけ
ここまで来ると、「なんとなく右下がりかなあ」という気もするが、フラットであるという可能性も十分あり得る、と読めはしないだろうか。無論、1979年、1981年、1982年という組み合わせと、1983年からの4年間が、それぞれ似たような傾きで右に下がっているので、右下がりに見えてしまうけれども。
 無論、1980年(左から3つ目)のデータを消せば、こんどはかなりクリアに右下がりになっていると読めるようにも思える。
 これはつまり、回帰分析で有意になったからと言って、それが実際にどれくらい意味のあるものなのかを示したことにはならない、といういい例になっているのだ。そして、各データ点は、このバラツキ程度には誤差を持っているのだろうということが想像できるわけだ。

 次に、Fig.8 についても同様の処理をしてみる。
 まずは回帰直線を消してみよう。
ほたるいかの書きつけ
まだなんとなく右下がりに見える。次に、最終年度のデータを消してみよう。
ほたるいかの書きつけ
すると、A型については、1981年以降は単調に減少しているものの、1980年以前のほうがより「B型的」であり、全体を通してみると、「B型的」になっていると言うにはかなり抵抗を感じざるを得ない。B型については、バラツキが非常に大きく、1984年までのバラツキがむしろ普通で、それ以降似たような得点(正であることに注意!)であることの方が偶然ではないかと思われる。
 ただし、A型とB型では、相対的には系統的な違いがあるようには見えるので、違うのは違うのだろう。無論、その違いは論文でも述べられているようにごくわずかなものである。「A-B」得点が[-1,+1]のレンジを取るのに対し、A型は0.08点、B型は0.02点程度なのだから、少なくとも日常生活で意味のあるような強い相関ではない。

 最後に、ちょっと(かなり)強引ではあるが、試みにFig.8にエラーバーをつけてみよう。A型の標準偏差を0.03、B型を0.04としてみたのが下の図である。この数値の根拠は実に適当であるが、Table 2 で82名のサンプルを220のセルに分けたときの標準偏差が0.11であり、JNNデータでは各年次でA,Bの人数が合わせて1680人程度というところから、ざっと見積った。(エラーバーの大きさには根拠はない)。無論、本来は220のセルでの標準偏差ではなく、各セルでの標準偏差を見ないといけないのだが、それはわからないので、強引につけてみた。
 (追記)Table 2 の平均値、標準偏差は、おそらくはFig.5の年齢による「A-B」得点の分布が決めていると思われる。というのは、Table 2では、平均値が0.054、標準偏差が0.11となっているが、Fig.5はまさにそんな感じだからだ(Table 2によると最小値が-0.24、最大値が0.28なので、それらを出したのがどのセルかは気になるところではあるのだが)。すると、血液型ごとに年齢構成がそう大きく変わらないのだとすれば、A型の得点もB型の得点も、個々のデータ点のまわりに±0.11(100倍すると±11)程度の分布の広がりがあると解釈すべきである。だから、この図では±0.03, 0.04 でエラーバーをつけてみたけれども、実際はもっと大きいと推測しても問題はないであろう。(ここまで)
ほたるいかの書きつけ
これくらいのエラーバーがあると、年度ごとのバラツキも「ああ、偶然だったんだな」という気になってくる。もちろん本当はもっと小さいかもしれないのだが、バラツキ程度にはサンプリング誤差があると考えるのは妥当であろう。でなければ、なぜ1980年だけ点が低いのか、とか、理由を考えなければならなくなる(そしてそんなことはありそうにない)。
 そしてもう一つは、標準偏差(誤差)の大きさは、違いが有意であるかどうかとは無関係(直接的には)、ということを示すいい例にもなっている、ということである。これについては「忘却からの帰還」の Kumicit さんがわかりやすい解説をされているので、そちらを参照されたい。
   「ブログ記事を動画にしてみるテスト
   「ABOFAN says personality does not depend on blood type.
   「ABOFAN fools abofans.
   「有意差 again
これらはABO FAN氏の主張を題材にしているけれども、単にそれだけではなく、標準偏差と有意差というものの違いをわかりやすく解説しているので、大変参考になる。

 というわけで、結論に対してはそれなりに批判的に書いてしまったけれども、おそらくは心理学界内部ではこの程度の批判はあっただろうと予想(期待)している。書籍では無批判に自己成就現象の示唆ということで載っている場合が多いけれども、それは専門家向けではないのだから、それはそれで良いのだと思う。ただ、非専門家といえども、興味のある人はこれくらいの分析は見ておいてもいいのではないかとも思う。
 で、私の結論であるが、自己成就現象はたしかにありそうに見えるけれども、ここは保守的に「なんとも言えない」という立場を取っておきたい。「ある」となったならば、それは血液型と性格に関係があるという言説がいかに非人道的か(人の一生を根拠のない主張によって左右する)ということが明瞭に浮かびあがってくるので、血液型性格判断を否定したいという立場からは自己成就現象はあってくれた方がいいわけである。その一方、そんな簡単に影響受けてたまるか、という実に主観的な気持ちもある(自分の成長過程を考えると、受けちゃうだろうなあ、とは思うのだけど)。
 そういうわけで、ぜひ、「その後」の結果を見てみたい。その後もこの論文で示したような傾向が続いているのであれば、結論は明らかになるだろう。その際は、年齢ごとの違いについても詳細な分析があると望ましい。

 最後に余談であるが、研究というものは、最初はどこかでエイヤッとやるところから始まるものだ。なので、この論文の結論が、もし今後より大規模な調査によって確定したとすれば、これは先駆的な仕事として高い評価を確定するだろう。
 そのような状況を辿った研究で有名なものが、宇宙の膨張を示す「ハッブルの法則」である。ハッブルの法則とは、我々からの距離が遠いほど、距離に比例して遠ざかる速度が大きくなる、というもので、これは空間が膨張していることを示すものだ。時々新書などでも出てくるので見た方もいるかもしれないが、一番最初にハッブルが報告したときは、以下のような図であった。
ほたるいかの書きつけ
1929年のことである(横軸が我々からの距離、縦軸が遠ざかる速度)。その後、距離の評価に系統的な誤差があることがわかり、傾きはおよそ1/7程度になったけれども、ここで示されているような直線であることに変わりはない。そして、直線のまわりのデータ点のなんとバラツいていることか! その後の詳細な観測によって追認されたから良かったものの、そうでなければ「蛮勇」の謗りを免れなかっただろう。

 自己成就現象が今後どういう道を辿るのかはわからない。しかし、それを研究する意味があることを示しているだけでも、この論文の価値は非常に大きいというべきだろう。ぜひ、「その後」を見てみたいものである。

「血液型と性格」の正しい理解のために:山崎-坂元(1991)その1(修正あり)

 前回の松井(1991) に続き、今回は山崎-坂元(1991)を紹介しよう。
 前回のエントリ で示したように、松井(1991)では、あくまでも「注」という形でではあるが、自己成就現象を検出しているかもしれない、という示唆を与えていた。本論文は、そこに注目し、より詳細な分析を試みたものである。
 なお、彼らの論文は、以下に示すように2つある。今回は、その前者のほうを取りあげる。
   山崎賢治、坂元章「血液型ステレオタイプによる自己成就現象-全国調査の時系列的分析-」、1991、日本社会心理学会第32回大会発表論文集、288-291
   山崎賢治、坂元章「血液型ステレオタイプによる自己成就現象-全国調査の時系列的分析2-」、1992、日本社会心理学会第33回大会発表論文集、342-345

 また、対応するABO FAN氏のウェブページは「Prof. Sakamoto 」である。適宜参照されたい。
 それから本ブログでの論文紹介については、サイドバーに関連エントリをまとめたので参照いただければ幸いである。

 なお、最後のほうで取り上げるが、この論文の結論をそのまま受け取るわけにはいかない、というのが私の立場である。定性的には正しいように見えるけれども、定量的にはまだまだ議論の余地がある、というのが私の主張だ。もちろんそれは、本論文での解析が間違っているという意味ではなくて、より深い考察が必要だろう、ということである。
 本当はグラフから数値データを読み取り、最小二乗法などを使って自分で解析してみたかったのだが、時間がなかなか取れず、このままではズルズルと公開が遅れることから、とりあえず現段階で私が言える範囲でこの論文を紹介する。後日、機会があれば、そのあたりの解析もやってみたいと思う。

 さて、まずは前回と同様に、論文に沿って、論文が何を書いているかを順次紹介していこう。章番号は、こちらでつけた。なお、この論文も4ページと短く、解説がほとんど引用になっている箇所もあるがご了承願いたい。さらに、メインの結果については「重回帰分析」が用いられているが、私は詳細はわからないので、たぶんこうだろうという推測が混じることもご了承願いたい。

   1. 問題と目的
   2. 方法
   3. 結果(この章の前半まで本エントリ、後半以降は次エントリ )
   4. 考察

1. 問題と目的
背景
 近年(1991年当時)、「血液型性格学」に関する著書が数多く出版されている。その浸透に対し、心理学の立場からの研究も増えているが、そのほとんどは、血液型と性格の間の関係を否定する結果を得ている(大村政男『血液型と性格』福村出版、1990. なお引用者は未読であることをお断わりしておく)。
血液型ステレオタイプと自己成就現象
 血液型ステレオタイプ(血液型と性格の関係についての信念)が自己成就的に現実となり得るという問題が指摘されてきた(Snyder, M. 1984 など. これも未読)。著書が年々増えていることから、自己成就現象も進んでいると考えられる(2009年現在では、さらにひどい事になっていると予想される)。
JNNデータバンクの全国調査
 (この項省略。前回の松井論文の解説を参照。なお、松井論文がここで引用されている)
前調査
 自己成就現象を検討するにあたり、血液型ステレオタイプを明らかとするため前調査を実施した。
 坂元(1988、「対人認知様式の個人差とABO式血液型性格判断に関する信念:いわゆる『血液型性格判断』を否定する(1)」、日本社会心理学会第29回大会発表論文集、52-53. これも未読)では、大学生はA型とB型に明確なステレオタイプを持ち、しかも両者を対称的に認知していることが明らかにされた。そこで、まずA型とB型の血液型ステレオタイプを明らかにした。
 JNNデータバンクの1978~1988年の11年の調査で、各年に共通な24項目を検討対象とした(なお、松井論文では、1984年の調査では血液型に関する設問が含まれていないため分析から除外する、と書かれているのだが、この論文では1984年のデータも載っている。どういうことだろうか?)。対象は美術大生で、24項目のそれぞれが、どれくらいA型(B型)に典型的かについて調べ、82名から回答を得た。その結果がTable 1である。

ほたるいかの書きつけ
A型により典型的と思われている(「A型判定率」)項目の順に並べ、上位3つをA型的特徴、下位3つをB型的特徴として選んだ。
 なお、これらの判定のうち、有意にA型あるいはB型に偏っていた項目は、24項目中20項目あった。大学生はA型、B型に明確なステレオタイプを有することが確認された。

 ここで少し考えてみる。この分類が一つ問題であると思われる。Table 1 の結果を見ると、「A型にあてはまる」項目を答えさせたように推測できる。詳細がわからないのでなんとも言えないが、もし「A型にあてはまるのはどれ?」という聞き方であったなら、上位項目をA型的特徴とするのは問題ない。だが、下位項目をB型的特徴とするのは構わないのだろうか?坂元(1988)では、A型とB型に対し対称的に認知しているという結果を得たそうであるが、それが前提となっていると思われる。つまり、A型判定率の低い項目=B型判定率の高い項目であるという前提である。
 これについては坂元(1988)を検討しないとなんとも言えないのだが、とりあえずは良しとして話を進める。

本分析の目的
 JNNデータを再分析することにより、血液型ステレオタイプの方向へ日本人の性格評定が変化していることを示し、自己成就現象の存在を検討する。
 なお、ここで「性格評定」の変化としていることに注意されたい。「性格評定」=「性格」とは言い切れないからである。

2. 方法
 ここでは、「A-B」得点を合成し、χ2検定により、血液型ステレオタイプと性格との間の関連を分析した(この文章はおかしい。おそらく、「血液型ステレオタイプに基づく性格」と「血液型」との関連を分析した、ではないだろうか)。そして、「A-B」得点を目的変数とする重回帰分析により、時系列的な分析を行った。
分析の素材
 JNNデータの1978~1988年の11年分で、前調査で選ばれた6項目(A型的、B型的それぞれ3つづつ)が用いられた。
尺度(「A-B」得点)の作成
 ここがポイントなので、そのまま引用する。
 「A型的」特徴、および「B型的」特徴、計6特徴に関し、JNNデータについて、各性格特徴があてはまると答えた場合に得点1を与え、あてはまらないとしたときは得点を0とした。そして、「A型的」特徴3つについての平均から、「B型的」特徴3つについての平均を引くことにより得られる数値を今回の分析の指標とした。
 この数値が大きいほど、大学生の持つ血液型ステレオタイプの「A型的」特徴に片寄った性格を自己報告したことを表す。逆に、この数値が、小さい場合には、「B型的」特徴があてはまると自己報告したことを表す。そこで、この指標を「A-B」得点と呼ぶことにする。「A-B」得点の要約統計量をTable2に示す。
この解説がちょっと厄介で理解するのが大変なのだが、私は以下のように読み取った(間違っていれば御教示いただけると有り難い)。たとえば1000人のサンプルがあったとする。1000人に対し、A型的特徴についての項目(A1, A2, A3とする)、B型的特徴についての項目(B1, B2, B3とする)、計6項目について尋ねる。A1~A3について、それぞれ900人、800人、700人が「はい」と答えたとする。すると、A1の平均得点は0.9, 同様にA2, A3については 0.8, 0.7 となる。この3つの平均を取ると(どういう重みがつくのかは不明だが、単純に3つの平均を取るとすれば)、A型的特徴の平均として0.8点が得られる。ここで、得点は[0,1]区間に分布する。同様に、B型的特徴についての平均点が得られる。これらの差を取ることにより、「A-B」得点を構成することができ、その範囲は[-1,+1]となる。
 あるいは、個人ごとに構成したのかもしれない。たとえばA1,A2,B1に「はい」と答えた場合、Aの平均は2/3、Bの平均は1/3で、「A-B」は2/3-1/3=1/3=0.33... となる。それを1000人(のサンプルの場合なら)で平均した、と。またはA,Bそれぞれで1000人で平均し、最後に引き算をするか。どれが正しいのかはわからない。まあ重みの付け方が妙なものでなければ同じになるのだろう。
 できれば上位・下位3項目づつ、という場合だけでなく、1項目づつの場合、2項目づつの場合、などの結果も見たいと思う。結果の安定性に関わることだからである。

 さて、それはともかく、Table 2 を以下に示す。
ほたるいかの書きつけ
(以下、当初公開した部分には勘違いがあったので修正します。すいません)
これがまたよくわからない。「全数」が220となっているのだが、なんの数だろうか?回答数は82名(上位・下位3項目は82名が回答している)、項目は計6つ。どこから220という数字が出てくるのだろうか?下の注釈を見ると、「血液型×性別×年齢×調査年次」という文言がある。血液型はA,Bのみを考えているので2、性別は2、年齢は次エントリで示すが10代~50代と5つに分類しているようなので5、調査年次は11年度あるので11、とすると、これらのかけ算が220となる。従って、おそらく、これらで分類したサブサンプルごとに「A-B」得点の平均点を求め、その平均点の平均値を書いたのがこの表の「平均値」ではないかと思われる。標準偏差はその220に分類したものの偏差だろう。
 ただ、そうすると、Table 2 は美術大生82名についてのものであるはずで、そもそも220以下の人数しかいない。空欄になるセルが大量にあると思うのだが、それは0としているのだろうか?だとすると、平均値や標準偏差の意味がよくわからなくなる。(JNNデータで作成した表でした)
 ただいずれにしても、この人数では平均値は0.054、標準偏差は0.11、ということで、ゼロが誤差の範囲に入っていることである。82名だとすると、JNNデータのうちA,Bが各年約1700名づつであることを考えると、サンプルサイズは約20倍、つまり標準偏差もせいぜい1/4~1/5程度にしかならない、ということだ。0.11の1/5倍は0.02程度だから、82名の場合と同様0.054という結果が1700名の調査で出たとしても、3σの範囲で1σの範囲でゼロが含まれる。その程度の微弱なシグナルであることはおさえておくべきだろう(注:膨大なJNNデータでさえこんなに大きい標準偏差なので、血液型が日常生活において「役に立」たないものであることを顕著に示していると言えよう)。
 もっとも、各セル(Table 2の注釈にある意味でのセル)ごとの偏差がわからない。実はそれらはずっとタイトなのかもしれない。だから、すぐ上で書いたように1σでゼロが含まれるということには意味はないかもしれない。より詳細なデータを見たいものである。

3. 結果
「A型的」特徴/「B型的」特徴における血液型による該当率の偏り
 JNNデータに関し、前調査で選んだ6項目についての回答と、それぞれについてのχ2値をTable 3に示す。
 各表のうち、左側が「A型的特徴」、右側が「B型的特徴」を表す項目であり、それぞれについて、A型、B型別に「あてはまる」「あてはまらない」の人数が書いてある(二段目だけ、上下とも「あてはまらない」になっているが、おそらく上段は「あてはまる」であろう)。各表の下にはχ2値が書いてあり、左上の項目を除き、どれも1%以下の有意水準で有意である。
 なお左上の項目は、前調査では「3番目にA型的」とされたものであったが、JNNデータでは10%水準でも有意ではない。前調査では、A型判定率は項目15が87.8%、項目6が86.6%、項目2が85.4%であった。つまり、82人中、それぞれ72人、71人、70人が「A型的」と答えたわけで、大差はない。しかし、χ2値にすると、JNNデータでは大きく異なっており、血液型ステレオタイプがそのまま性格の自己報告に反映されるわけでもないことを示していると言えよう。

ほたるいかの書きつけ

 さて、ここから、この論文では次のようにまとめている。
(1)血液型の自己報告と性格との間に問うけいてき に有意味な関連が見られること
(2)その関係は大学生の血液型ステレオタイプどおりの偏りであること
まず(1)であるが、「有意味」の意味が曖昧であるが、有意に差が出ていることは(1項目を除き)明らかである。ただし、差が有意であることと、差が大きいかどうかは必ずしも同じではない。Table 3 を見ればわかるように、最もA型的とされる項目15では、「あてはまる」と答えた者がA型で32.3%、B型では28.6%であり、高々3.7ポイントしか違わない。最もB型的とされる項目4(松井論文でも項目4が焦点の一つであったが)でも、A型で32.9%、B型で37.8%と、4.9ポイントしか違わないのである。差が有意であったところで、日常生活で役に立つような「強い相関」でないのは明らかだろう。
 次に(2)であるが、上での述べたように、血液型ステレオタイプから構築されたA型判定率に比べ、JNNデータでの自己報告の差のなんと小さいことか、ということを感じられるであろう。知識としては「○型は~」と思っていても、自分は違う、と思っているわけである。ついでに言えば、各自の観察からステレオタイプが得られたわけでもないことも、A型判定率とJNNデータとの違いから想像できよう。「知識汚染」を認知バイアスが強めた結果であると考えるのが妥当であると思われる。

 この項最後のパラグラフは全文引用する価値があろう:
 最も大きな偏りを示したのは項目4である。しかし、その偏りは、A型とB型とで1680人(無作為にサンプルを集めるなら、O型やAB型も含まれるから、全2800人)以上という大量のデータでないと、5%水準で有意味とされない程度の微弱なものである。
つまり、仮にこの差が本当にあったとしても、大量の集団同士を比較してはじめて検出可能になる程度の違いなのであり、ある人の血液型からその人の性格を、あるいは逆にある人の性格からその人の血液型を当てるなどということは事実上不可能であることを明瞭に示しているのである。つまり、前出の松井論文の結果と整合しており、なんら矛盾はない、ということである。

 本エントリを終わる前に、Table 3 が出ているので、これと関連した Fig.6 を先に解説しておきたい。Fig.6 とは以下のようなものである。
ほたるいかの書きつけ
血液型別(A型とB型)の「A-B」得点である。なお、数値を100倍していることに注意。A、Bそれぞれ8.15、2.71と書いてあるが、これは0.0815、0.0271の意味である。B型も「A-B」得点が正、すなわち「A型的」性格であることに注意。血液型ステレオタイプが実際の傾向と一致しているわけではないことを端的に示している。
 Table 3 から全体をまとめた場合の「A-B」得点が血液型別に計算できるはずなので、ちょっとやってみよう。A型の「A-B」得点は、
[(3495+5057+4021)-(4104+2907+2253)]/3/12466 = 0.08848
となる。B型の場合は、
[(1848+2542+1958)-(2589+1735+1460)]/3/6852 = 0.02744
である。Fig.6 に示された数値とほぼ同じであるが、微妙な違いはなんであろうか。
 もしかしたら、上で述べた「セル」ごとに先に平均値を出してしまい、A型はA型であるセルの平均値を、B型についてはB型であるセルの平均値をとって、Fig.6 にしたのかもしれない。しかしそうだとすれば、それは適切な重み(サンプルサイズ)を与えてないため、意味のある平均になっていないのではないか、と思われる。実際は似たような数値が出てきたので、おそらく血液型と性別・年齢・調査年次の相関がほぼないということを反映しているのであろう。
 なお、違いは微妙と書いたが、(100倍して)0.7, 0.3の違いは、そう小さい違いでもない(大きくはないが)。それは次回見ていこう。

 以上をふまえた上で、次エントリでは、「A-B」得点の、年齢及び調査年次による違いを見ていくことにしたい。かなり驚くことになるはずである。