インキュベ日記

書評3400冊・漫画評8000冊・DVD評1000枚・動画評1000話の「質より量」な記録サイト(稀に質も重視)

伊藤公一朗『データ分析の力 因果関係に迫る思考法』

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

マスコミや知識人が大衆を欺く方法のひとつに「因果関係」というものがある。実際には因果関係がない(あると確実には言えない)のに、あたかも因果関係が存在するかのように喧伝してしまうことである。

XとYの2つの要素がある時、因果関係とは「Xが増えた結果、Yも増える」という風に、XとYが原因と結果の関係であることを指す。ただ、XとYが、本当にX→Yの因果関係であるかどうかを証明するのは意外に困難であり、注意深く見る必要がある。

設例で考えると、例えば「読書時間」をX、「学校の成績」をYとする。そして両者をプロットした結果、読書時間が長い人ほど、学校の成績が良い傾向があったとする。この場合、確かに読書時間(X)と学校の成績(Y)には正の相関関係があると言えそうである。しかし相関関係と因果関係はイコールではない。このプロット結果だけを見て、読書時間を増やせば学校の成績が伸びるというX→Yの因果関係だと思い込むと、危険だということである。

X→Yの因果関係ではない場合、どのようなことが考えられるだろうか。本書には2つ書かれていたが、具体的には、まず因果が逆の可能性がある。X→Yではなく、Y→Xの可能性だ。つまり読書時間が増えたから学校の成績が良くなったのではなく、学校の成績が良くなったから読書時間が増えたというシナリオである。

もうひとつ、XとYの双方に影響を与える第3の因子がある可能性もある。X→Yではなく、V→X、V→Yの可能性だ。別に何でも良いのだが、クラス替えによる交友関係の変化はどうだろう。最近仲良くなった友達が読書好き&勉強好きで、放課後一緒に読書や宿題をするようになった結果、読書時間も伸びたし、学校の成績も伸びた。これは擬似相関と呼ばれるものだ。

さらには、「全くの偶然による相関関係」というものもある。確か『原因と結果の経済学』では、ニコラス・ケイジの年間映画出演本数と溺死者数をプロットすると、何と正の相関関係があった……ように見える、というものがあった。しかしこれは常識に考えて偶然だろう。

あ、ここまで書いて思い出したのだが、この辺については『原因と結果の経済学』の感想でも詳しく書いてたな。

incubator.hatenablog.com