長時間労働と統計学

なんでしょうね、たまに堅い話を書きたくなる時があります。

今日は帰宅途中に寄ったラーメン屋で流れていたラジオから聞こえてきたニュースのお話です。

タイトルの通り、つまらないお話ですが、それでもいいという方はお読みください。

1.発端

ボーっと聞いていたレベルなので、断片的で曖昧な記憶ではありますが、ラジオから流れてきたニュースというのが、

「裁量労働制と長時間労働の関係性を調査した結果、1ヶ月当たりの労働時間が裁量労働制の人は平均175時間、通常の労働体系の人は167時間なので、裁量労働制は長時間労働に繋がる」

というもので、これだけ言って次のニュースに移っていきました。

どういった職業の人を対象としたか等は不明ですが、1ヶ月に平日が20日だとすると、およそ1日8時間ちょっとで、8時間定時+たまに残業するレベルという感じですね。

聞いた瞬間に、まぁ短絡的な結論だな～と思いました。

放送の尺に制限のあるニュースと言っても、結論までの過程があまりにも雑すぎます。

はっきり言って放送する必要のない話ではないかと。

今回は、「このニュースの結論のどこがいい加減なのか？」というのを多面的な角度から解説する中で、僕が大学で学び、仕事でも使う程度

に得意分野である「統計学の入り口」をご紹介します。

※裁量労働制：みなし労働時間制の一種で、実際の労働時間とは関係なく、あらかじめ定めた時間を働いたとみなす労働形態。例えば1ヶ月の残業時間を20時間とみなし、初めから20時間分の残業代を支払うことがこれに当たる。労働時間が適切に把握されず、何時間働いたかが曖昧になることで、長時間労働に繋がるのではないか？という意見がある。

参考→https://ja.wikipedia.org/wiki/裁量労働制

2.疑問点

ボーっと聞いた曖昧な情報を基にあれやこれやと書くのはいかがなものかというツッコミは無しの方向で考えてみると、上記のニュースに対して浮かんだ主な疑問点は以下の通りです。

①「有意な差」・・・平均175時間と平均167時間の差は決定的な差と言えるのか？

②「平均の落とし穴」・・・長時間労働の判定に「平均」を用いるのは適切なのか？

③「疑似相関」・・・「裁量労働制」だから「長時間労働」という因果関係なのか？

①有意な差

まずは感じたのが、「そもそも、平均175時間と平均167時間の差って大したことなくない？」ということです。

8時間の差は、1ヶ月の平日を20日とすると、1日当たりなら30分弱です。

「30分くらい誤差だ」という見方もできますが、それ以上に統計学的に論点になるのが、「調査対象者を変えれば結論が逆転する可能性はないか？」という視点です。

大体こういう調査というのは数千人とか一定数のサンプルに対して行われるのが通常です。

「日本に居る〇百万人の裁量労働者と、〇千万人の一般労働者全員に対して調査しました！」というのは現実的ではありません。

そうすると、調査対象者を変えれば結論が変わってくる可能性はあり得る訳です。

「どれだけの数のサンプルを取れば一定の信頼水準に達するか？」というのも統計学の1つの論点ではありますが、別の数千人にアンケートを取れば、平均175時間と平均167時間の大小関係が逆転する可能性は無くはないかなと思います。

この程度2つのデータに差が生じれば、統計的にも明確な差があると言えるというのを、統計学では「有意な差」があると言います。

他にも、「回答者が正しく答えているか？(日頃の不満から長めに答えている、自分の月の労働時間を正確に把握していなくて実態と違う時間を答える等)」や「同じ企業に勤める人にまとめてアンケートを取る等、回答者に偏りはなかったか？」等、サンプル調査で全体の傾向を正確に掴むのは困難で、色々と考慮すべき要素があるということです。

「内閣支持率」はサンプルによって結論が大きく変わる代表例だと言えます。

50%と書く新聞があれば、45%と書く新聞もあり、場合によっては支持率と不支持率の大小関係が新聞ごとに違うこともあります。

調査結果の差を見るたびに、サンプル調査の限界を表しているのかなと感じます。

調査方法も影響するらしく、「電話調査なら固定電話があり、かつ日中家に居る高齢者や主婦が多い」「ネット調査なら若い人が多い」等の傾向が出るらしいです。

後は新聞ごとの読者層によって特定の政党の支持者が多いといった傾向があるという話も聞いたこともありますが、思想・信条に触れる話は差し控えておきます・・・

②平均の落とし穴

そもそも、長時間労働は何故問題なのでしょうか？

大きな理由として、「過度の長時間労働は労働者の心身を害するから」というのはご納得いただけるかと思います。

「過度の」というのがポイントで、「平均」が問題になる訳ではありません。

非常に適当な数値例ではありますが、例えば、「裁量労働制の労働者のうち20%は1ヶ月の労働時間が250時間を超えており、これは医学的に心身に支障をきたすと言われる水準である。一方一般労働者ではこの割合は5%のみであった。」といった調査結果であれば、「裁量労働制は問題は長時間労働に繋がる」という主張の説得力が増します。

「テストの平均点は〇点でしたー」とか小さい頃から慣れ親しんでいるだけに、「平均」という指標に高い信頼性を置いてしまいがちですが、データ分布の把握において常に平均を用いるのが正解とは限りません。

統計学では、「四分位範囲」「分散」「レンジ」等、データのばらつきや上位〇%といった視点でデータを見るための指標が存在します。

③疑似相関

最後に、数値だけを見ていても失敗しますよ！というお話をして締めようと思います。

例えば、水曜日のダウンタウンっぽく、「小学生の身長と知っている漢字の数には比例関係がある」という説を唱えてみましょう。

この説、調査してみると割と合っている自信があります。

ただ、この調査結果をもって、すなわち「身長が伸びることで漢字を覚えやすくなる」という結論に至るのは早計です。

正しい論理構成は、「身長が高い子は学年が高い傾向にある。学年が高ければ学習期間が長いのだから、その分多くの漢字を知っているはず」というものです。

これを収集したデータで横軸に身長、縦軸に漢字の個数を並べて比例関係があるのを見ただけで「新説発見！」とか騒ぐのはぬか喜びですね。

比例関係があり、一見因果関係がありそうに見える2者につき、実際には直接の因果関係はないことを統計学上は「疑似相関」と言います。

上記の例でも、「裁量労働制の労働者の労働時間が長いからといって、それが長時間労働の直接の原因とは限らない」点にも注意が必要です。

例えば上記のリンク先で、裁量労働制が認められている職種を見ると、弁護士や公認会計士、建築士、不動産鑑定士といった資格職が見受けられます。資格職だからといって忙しいかは当然分かりませんが、「弁護士試験の合格者が減って、人手が足りないから皆長時間労働になっている」という状況があるのなら、「裁量労働制だから長時間労働」ではなく、「裁量労働制を採用する職種に忙しい業種が多いから長時間労働」と言うのが正しいです。

(弁護士試験は合格者が増えて、合格しても就職難になり、安月給で働かざるを得ない人が居るという噂を聞いたことがありますが、僕は法学部ではないので、実際はどうなのかは知りません・・・)

3.終わりに

今の時代は「ビッグデータ」と言って、コンビニのレジに蓄積された客や売り上げの情報といった、いかにも商売に使えそうなデータに限らず、グーグルの検索情報やフェイスブック・ツイッターの投稿内容といった直接的には商売に繋がらなさそうだが、数億人単位の利用者がおり量だけは豊富にある情報を分析し、マーケティング等に役立てようという動きが盛んです。

ただ、無闇に量だけを集めても、分析の仕方を誤ると、上で述べたような「有意な差」「平均の落とし穴」「疑似相関」といった罠に嵌まる可能性があります。

「こういう見方をすればどんなデータでも間違いなく分析できる！」という万能の方法は無くても、統計学を学ぶと多面的なデータ分析の手法や、分析で陥りがちな罠を学べ、データの理解度が上がるはずです。

大学の講義がつまらんな～と思う方は、こういう視点を持って受講してみると良いかもしれません。

たまには学問的な話題を取り上げたいなと思って書いてみましたが、まぁ堅い話ですので、次回以降は平常運転に戻そうと思います。

ではまた(^^)/