データを使った嘘にだまされないために注意したい4つのポイント

statisticsここ10年ほど、ビッグデータというバズワードと共に、統計がちょっとしたブームになっています。

統計に関する本なんかも数多く出版されていて、結構売れている本もあるようです。

統計学が最強の学問だとは思いませんが、多くの分野で活用できる知識であることも間違いありません。

一方で、複雑な統計うんぬん以前に、世の中にあるシンプルな数字やデータを正しく解釈できていない人も多いように感じます。

また、そういった人をターゲットに、自分の主張に都合がいいようなもっともらしいデータを出してくる人も少なくありません。数値データがあると説得力があるのは確かなので。

そこで今回は、様々なメディアなどで提示されるデータを見た時に、気をつけるべきポイントを4つ紹介します。

難しい話は無しで、僕自身が最近目にしたデータなどを例として挙げながら解説していきます。

ポイント1:比較対象を見つける

まず、データを見たら常に比較対象を確認するようにしてみてください。具体例を2つ見てみましょう。

難関大学に入るにはピアノを習うべき?

まずはTABI LABOというサイトに掲載されていた記事を例に挙げます。

【速報】早慶・東大・京大の43%(在校生・卒業生)がピアノを習っていたと判明(TABI LABO)

この記事によると東大・京大・早慶の学生、あるいは卒業生の43%が過去にピアノを習っていたそうです。

「子供をいい大学に行かせるためには、ピアノを習わせなくちゃ!」っていう感想を持ってしまうかもしれませんが、ここで注意が必要です。

なぜなら、ここには比較データがありません。つまり、難関大学以外の学生がやっていた習いごとに関するデータがないんです。

データ分析の基本は比較です。

ピアノは極めて一般的な習いごとなので、一般的な大学生の50%が過去にピアノを習っていたかもしれません。だとすると、ピアノが勉強に与える影響として、結論は真逆になる可能性があります。

もちろん難関大学の学生とそれ以外の学生とでピアノを習っていた割合に差が見られないという可能性も十分にあります。

よく聞く話ですが、「東大に合格した人の99%が毎日食べていた食材があります。」というのが無意味なのも、同じように比較対象に言及していないことが原因です。

イギリスの病院が混むのは移民のせい?

もう一つの例です。

2016年6月23日にEU離脱を問うイギリスの国民投票がありました。結果は離脱派が過半数を越え。

その説明としてこんなツイートがありました。

イギリスには毎年18万もの移民がEUからやってきて、病院、電車、学校が一杯になり、それを疎ましく感じる結果が離脱の理由とのことです。

18万人と聞くとものすごい数ですね。

でも、本当に彼らのせいで病院や電車が混み、学校の教室が足りなくなるのでしょうか。イギリスの人口と較べてみてください。

6400万人に対して18万人。

その割合は0.3%弱です。300人がかかっている病院に今年から1人患者が増える。毎年学校に1人外国人の生徒が増えるだけのことです。

何でも移民のせいにすれば楽ですが、0.3%の増加で破綻をきたすシステムはどう考えても何か別の問題があるはずです。

このツイートに対して、「なるほどよく分かりました!」という意見が多いことに驚きましたが、偏見やデマはこうした無知や思考停止から広がっていくという典型です。

ちなみに、イギリスでもっとも多くの移民を受け入れているロンドンでは、EU残留を希望する投票が多数派でした。

ポイント2:因果関係と相関関係を混同しない

先ほどの習いごとのデータをもう一度。

仮に、一般的な大学生でピアノを習っていたことのある人が30%しかいなかった(難関大学の学生の方が高い割合でピアノを習っていた)としましょう。

ピアノを習うと勉強ができるようになると言えるでしょうか?

「指を動かすことで脳に刺激が……」とか「楽譜を読むことで暗記力が……」など、理屈はいくつか付けられそうです。TABI LABOの先ほどの記事にも、こんな分かったような分からないようなまとめが。

しっかりとピアノに向き合うことが、脳にポジティブな影響を与えることは間違いなさそうですね

でも、単純にデータだけから結論をだすことはできません。

東大や慶応の学生は裕福な家庭の子女が多いことが知られています。そして裕福な家庭とそうでない家庭とでは、子供が習い事に通っている割合は違ってくるはずです。

また、子供を習いごとに通わせる親は教育に熱心なので、塾にも通わせている場合が多いという可能性もありそうです。

つまり裕福な家庭、教育熱心な親という別の要因が「ピアノを習うこと」と「難関大に合格すること」の共通の要因になっているかもしれません。

このように、いくら比較対象があったとしても、データを見ただけでは必ずしも直接的な因果関係が分からない場合は数多くあります

そこに何か別の要因が潜んでいないかを疑ってみましょう。

因果と相関に関しては、下の記事で非常に分かりやすくまとめられていましたのでぜひ一読を。

ポイント2:フェアな比較をする

続いては、比較対象があるものの、それが公平な比較になっていない場合の例です。

予備校の合格者数

まずは単純な例から。

大手の塾や予備校の広告の中に「◯◯大学合格何人!」というフレーズをよく見かけます。

もちろん合格者数が多い予備校がいいというわけではありません。

1000人の生徒のうち100人が国立大学医学部に合格する予備校と、100人中50人が国立医学部に受かる予備校のどちらが良さそうか。考えるまでもありません。

ただ、大手予備校の「何人合格!」という宣伝文句が今でも使われているということは、無条件にそれに反応してしまう人が多いんじゃないかと思います。

若者は本当に悪いのか?

続いてはちょっと悪どいものを。

某テレビ局が作ったと言われる有名な円グラフがあります。

外資系コンサルティング会社では絶対に教えてくれないであろうそのグラフ自体非常に興味深いんですが、ここではそのグラフで使われていたデータについてのみ触れます。

「目立つ"若い世代"の不祥事」というタイトルとともに、懲戒免職になった警察官の数が紹介されていました。具体的には以下の通りです。

10〜20代:97人
30代:78人
40代:78人
50代:94人

タイトルにもなっている通り、たしかに10〜20代という若い世代が一番多くなっています。

でも、おかしいですよね。他の世代が10才刻みなのに、若い世代だけ10〜20代でまとめられています。

例えば40〜50代というくくりにすれば、172人と圧倒的です。むしろ年配の方が極悪ということになります。

◯ジテレビは何らかの理由で若者を悪者にしたい思惑があったんだと思いますが、データがどのように整理されているか、それがフェアな比較かどうかを意識することが大切です。

今回のデータについて言えば、そもそも各世代の母数がわからないので、懲戒免職になった人の絶対数の比較にどこまで意味があるのかも疑問です。

TOEICのスコアが高い集団は小学生?

続いては、しばらく前にこのブログでも紹介した内容です。

英語テストのTOEICを主催しているETSが、試験のスコアを色んな切り口で分析していました。

その中から見てもらいたいのは下の図。所属学校別の平均スコアです。

toeic-score-student

所属学校別受験者数と平均スコア(DATA & ANALYSIS 2014)

 

なんと小学生の平均スコアは639点と大学院生より高いんです。

「日本の未来は明るいですね!」とは、もちろんなりません。

これは小学生でTOEICを受けるという層がどんな子供たちかを考えて見れば簡単に答えがでます。帰国子女だったり、インターナショナルスクールに通っていたり、そうとう英語ができる子供がかなり多いはずです。

「日本人はアジア(世界)で一番英語ができないという」根拠として、各国のTOEICの平均をもってくるのも同じようなものです。例えば、東南アジアの発展途上国でTOEICを受ける層を考えたら分かりますね。

*このETSのレポートは別に「小学生すごい」とかを主張しているわけではありません。ただ、データの元になるサンプルの偏りについて注意しないと、誤った解釈をしてしまうという例として紹介しました。

DATA & ANALYSIS 2014 (ETS)

ポイント4:おかしいと思ったら一次情報を確認する

最後のポイントです。

具体的なデータが載っているからといってそれを鵜呑みにしてはいけません。特に何かおかしいと感じたら、その一次情報にあたるようにしましょう。

20代男性の4割は交際人数が0人!?

例えば、下のグラフはとあるブログの記事に掲載されていた図です。

この図の説明として、こんなことが書かれていました。

リクルートブライダル総研の「恋愛・婚活・結婚調査2015」(*1)からは、二〇代男性の約四割と、女性の約二割に「交際経験がない」という事実が明らかとなります(図1)。

20代男性の4割強が「交際経験がない」というのはかなり驚きの数字です。

出典もしっかり明記されていて、しかもリクルートという超大手の名前があるので、一見それなりに信用できそうです。

ただ、ソースを見るとすぐにカラクリが分かりました。

このグラフのもとになっているデータは、"独身者"を抽出して、その中で「恋人がいる」などという分類をしていたんです。そりゃあ独身者に限定すれば「交際経験がない」という人の割合も必然的に高くなるでしょう(既婚者は当然交際経験ありなので)。

既婚者も混ぜれば、20代男性の「交際経験なし」の割合はもっと下がるはずです。少なくとも記事のタイトルや、上で引用した文は誤解を生む表現でしょう。

ちなみに、もともとのリクルートによる一次データが載った資料はネットで検索すると一瞬で出てきます。データを見て変だなと思った時に、それを確認する一手間をかけるかどうかが、データが実際に示していることを正確に理解するポイントです。

この人のブログは面白い記事が沢山あるんですけどね……。

20代男性の4割超に交際経験がない時代と「恋愛障害」(トイアンナのぐだぐだ)

恋愛・婚活・結婚調査(ブライダル総研)

メディアと支持率

こういった話は個人ブログに限った話ではありません。

例えば、下に示すのは最近の安倍内閣の支持率とそれを調査したメディアです。どれも現時点で直近の数字です。

49.4%:産経新聞社とFNN
48%:NHKニュース
44.3%:報ステ
43.3%:NNN世論調査

いずれも超大手のメディアによる調査結果ですが、5パーセント以上の開きがあります。

数値データといえども、色んなイデオロギーやバイアスからは逃れられないことも多いです。

どの団体による調査結果が実際の支持率を反映しているのかはわかりませんが、データの発信元がどこかということは常に認識しておくべきです。

ちなみに、最初に紹介した難関大学の学生の43%がピアノ云々というデータの一次ソースは、電子ピアノを生産しているカシオ計算機によるプレスリリースです。どういったバイアスがかかっているデータかは分かりますよね。

 ちょっとだけ注意してデータを見る

以上、データを使った嘘にだまされないために注意して欲しい4つのポイントを紹介しました。

  1. 比較対象を見つける
  2. 因果と相関を混同しない
  3. 公平な比較になっているかを確認する
  4. 一次情報にあたる

どれも専門的な知識は不要です。一呼吸おいて考えたり、確認するだけで、すぐに分かることも沢山あります。

定量化されたデータがあると、何となく信頼できそうな気がしてしまいます。ただ、そこで主張されているメッセージを鵜呑みにするのではなく、正しくデータを解釈して、そのメッセージの妥当性を見極めましょう。

今回紹介したような話をもっと勉強したいという人には、まずは「統計でウソをつく法」という本がおすすめです。それでは、今日はここまで。