言わずと知れたベストセラーですが,【中学の数学からはじめる統計検定2級講座】をわたしが執筆していることもあり,ぜひ紹介しておきたい一冊です。本書は「統計学とは何か」がわかる良書であり,すべての大人が教科書として読むべきだとすら考えます。著者は東大医学部卒で医療分野の研究に携わってこられた西内啓さんです。西内さんは,本書のことを「統計学という学問領域に足を踏み入れるうえでの壮大なイントロダクション」と述べています。現代社会で活用されている統計学とはどんな手法であり,それらはどんな歴史的背景から生み出されたのかを知ることができます。
統計学の本ということで,「難しいのでは?」と思われる方がいらっしゃることでしょう。本書では,数式をこねくりまわすようなことはありませんので,大部分は「読み物」として楽しめます。ただし,後で触れるように,第5章と第6章はやや専門的な話題に踏み込むので,予備知識のない人は知識を得てから読み直すという読み方をおすすめします。
この記事を読んで,本書に興味がわいたら,ぜひ手にとってみてください!
本書を読むメリットと注意点
本書を読むと,次のことがわかります。
- 統計学とは何か
- 統計学の実社会への応用例
- 論文の検索の仕方
本書では,統計学の応用例を紹介する中で,統計学の専門用語が紹介されていきますので,もちろん,これら以外にも学べることはたくさんあります。
一方で,本書は統計学の専門書ではないので,読んでも統計学の問題が解けるようにはならないということにご留意ください。本書を読了後,統計学に興味を持たれた方は,確率変数という概念やその数理的な性質を統計学の入門書で学習されるのが良いと考えます。また,本書には「ビジネス編」「実践編」「数学編」という続編がありますので,続けてこれらを読むというのも良いでしょう。
予備知識別のおすすめの読み方
専門用語はすべて説明が書かれていますので,著者は本書を読むにあたり予備知識を仮定していないと考えられます。しかし,私見ですが,第5章と第6章は統計学を(統計検定2級程度まで)学んだ後に読んだほうが理解しやすいと思います。この点を踏まえ,予備知識によって4つに区分しておすすめの読み方を紹介します。
①これから統計学を学んでみようと考えている人
予備知識なしで読めるのは,第1〜2章と終章です。これだけでも読む価値はあると考えます。第3〜4章は少しだけ計算が出てきますが,理解するのに必要な説明は書かれているので,読める人もいるでしょう。まずは読める章を読んでもらって「統計学とは何か」という雰囲気をつかみ,統計学を学ぶモチベーションにしてもらえればと思います。
②統計検定2級を学習中の人
第3〜4章は統計検定2級の内容に相当しますので,統計学の学習と並行して読み進めると良いと思います。第5〜6章は2級〜準1級相当の内容なので,読んでみて難しく感じるようであれば2級の合格後に改めて読み直すといいでしょう。
③統計検定2級を取得済みで,準1級の受検を検討している人
すべての章が問題なく読めるだけの予備知識があると言えます。その上で,第5章を読むと,統計検定2級で学習する様々な検定やロジスティック回帰などが広い意味での回帰分析として一般化できるという話題が紹介されており,準1級の学習へのモチベーションがわきそうです。
④統計検定準1級以上を取得済みの人
すでに統計の知識をお持ちなので,本書を読んでも「そんなの知っているよ」と思われるかもしれませんが,読み物として楽しめると思います。以下の各章のトピックをざっと見て,興味のある内容があるか確認してみてください。
以下のセクションでは,私が特におもしろいと感じたトピックを取り上げて,章ごとに要約していきます。章名は本書から抜き出したものなので,およそこのような目次になっていると考えてください。章名の後の「〜○○〜」の部分は私が主観的につけたサブタイトルです。タイトルだけでは伝わりにくい,章の雰囲気をサブタイトルで補ったつもりです。これらの章名を参考に,興味のあるところを読んでみてください。
第1章 なぜ統計学が最強の学問なのか? 〜データが不毛なオヤジたちの議論を一蹴〜
いきなり,本書のタイトルの種明かしです。統計学がなぜ最強なのか? 著者は次のように述べています。
どんな分野の議論においても,データを集めて分析することで最速で最善の答えを出すことができる
最速で最善の答えを出せる例として,第1章では,医療,教育,経済,スポーツなどへの応用が登場します。ここでは,疫学の例として挙げられている19世紀のロンドンの話題をご紹介します。
当時,十数万人の生命を奪うコレラが大流行していました。医者や役人などの知性のある人たちがこの難題の解決のために知恵をしぼりました。その中で提案された1つの案は,多数の死亡者が出ていた不衛生な地域において,街中の汚物を清掃するというもっともらしいものでした。しかし,これが逆効果でした。コレラの蔓延を食い止めるどころか,逆に死亡者が増えてしまったのです。ほとんどの人には「きっとこうすれば改善するのでは?」という何となくの発案しかできなかったため,根本的な解決につながらなかったのです。この絶望的な状況下で,画期的な提案をした人物がいました。それが,疫学の父と呼ばれることになる外科医のジョン・スノウです。彼は,同じような状況におかれていても,コレラにかかっている人とかかっていない人がいることに気づきました。その2つのグループにはどんな違いがあるのかを現地で綿密に調べ上げた結果,彼は得られたデータに基づいて次のように判断したのです。
「利用している水道会社の違いが原因だ。水道会社Aの利用はやめるべきだ」
どうですか? すごいエピソードだと思いませんか? データに基づいて判断するとはまさにこういうことを指すわけです。規模は違っても,これと同じことは日常でも起きています。多くの会社で,今なお「長年の経験に基づくと…」みたいな直感や経験だけに任せた不毛な会議が行われていますよね。「もうそんなのやめませんか? 統計学に基づいて判断すればいいじゃない」っていうのが本書の主張です。
第2章 サンプリングが情報コストを激減させる 〜全部調べる必要なんてない〜
この章は,統計学を統計学たらしめる重要な概念のサンプリング,つまり標本調査がテーマです。これについても,本書の例を1つだけ取り上げてみたいと思います。
1930年代のアメリカの話。世界恐慌によって失業者が大幅に増加し,失業率を低下させることが1933年に大統領に選出されたフランクリン・ルーズベルトにとって喫緊の課題でした。そのためには失業者数の正確な把握が必要で,2つの方法が検討されました。1つは「失業者にカードの記入と郵送を義務づける」という米議会の案で,もう1つは「2%に対してサンプリング調査を行う」という政府に雇用された統計学の知識を持った若者が出した案でした。この全数調査VSサンプリング調査について,その後10年以上の検証が続けられた結果,全数調査のほうは無職の若者が調査に非協力的であったために失業者数の過小評価につながったのに対し,サンプリング調査のほうは驚くほど正確なものだということが判明したのです。
サンプルサイズを大きくすればそれだけコストがかかるので,誤差が十分に小さいのに無意味にサンプルサイズを大きくするのは賢明とは言えません。「とにかく全部調べればいい」というのは,統計学が確立される以前の考え方であり,21世紀に生きるわたしたちは,統計学の恩恵を利用させてもらうのが得策なのです。
第3章 誤差と因果関係が統計学のキモである 〜統計学とは誤差を制御する技術〜
この章から,少し統計学の専門的な話題が混じってきます。現代の統計学は,もちろん,ただの集計ではありません。20世紀の前半に統計学の流れを大きく変える偉大な統計学者が現れました。それがロナルド・フィッシャーです。この章のテーマは,彼が生み出した「誤差を制御する技術」です。ここでも,本書で取り上げられている興味深い例を紹介しておきます。
小売業を営むある企業は,顧客の一部にDM(ダイレクトメール)を定期的に送っていました。もし,DMに集客効果があるのなら,大々的に送れば売上を大きく増やせるし,もしそうでないなら,コストがかかるだけなので,DMを送ることをやめてしまえばいいわけです。そして過去に送った結果を検証したところ,DMが送付された集団と送付されなかった集団の間に500円の平均購買額の差があることがわかりました。では,この差は誤差ではないと言えるのでしょうか。これがたまたまなのか,本当に購買額に差があるのかを検証する方法として登場するのがカイ二乗検定とp値です。「p値とは何か」について,本書では次のように説明しています。
実際には何の差もないのに誤差や偶然によってたまたまデータのような差が生じる確率
そこで,過去のデータを用いてカイ二乗検定を行い,p値が十分に小さい(慣例的に5%以下)ことを確認してはじめて「意味のある差」と判断できるわけです。
新しい施策を行って売上に差が出たからといって,すぐに喜ぶのは少し早すぎるわけです。実際には何の差もないのに,たまたま差が出て喜ぶことを著者は次のように例えています。
誰かがコインを1回投げて表が出たというだけで「すごい! 表が出続ける魔法のコインが見つかった!」とか,「すごい! この人はコインで表を出し続ける必勝法を身につけた!」と喜んでいる状態とまったく変わらない
「意味のある差なのかどうか」がわかるのも統計学の恩恵です。カイ二乗検定もp値も使いこなすのはそれほど難しくありません。エクセルでも算出できますので,まだ知らないという人はぜひ学んでみてください。
第4章 ランダム化という最強の武器 〜占い師は本当に占えるのか〜
この章のテーマは,統計学者フィッシャーが生み出したランダム化比較実験です。これについて,著者は章のはじめに次のような強力な表現を使っています。
人間の制御しうる何物についても,その因果関係を分析できる
たとえ,それが「占いや超能力は信用に値するか」というものであろうが,そのような能力が存在するのならば実験により実証が可能だし,実証できないとすれば,そのような能力は存在しないことの証左であるというわけです。
この章の中で,次のようなビジネスでの応用例が示されています。
ミシンを販売していた米国の企業で,「ミシンを2台買ったら1割引き」というキャンペーンを上司に提案した社員がいました。普通に考えると,ミシンは一家に1台あれば十分なので,「そんなのうまくいくわけない」と即座に却下されてしまいそうですが,この会社では,このキャンペーンについてランダム化比較実験を行ってみたのです。その結果は意外なものでした。このキャンペーン広告が表示された顧客グループの売上は,そうでない顧客グループの売上に比べて,なんと3倍以上になったのです。何が起こったのでしょうか? 確かに,一家に1台あれば十分なミシンですが,この広告を見た顧客は,隣人や友人を誘って共同購入をしたのです。並の上司ならば,「そんなのうまくいくわけないじゃん」と一蹴して終わるような「一見すると非合理的な」部下の提案が,会社に莫大な利益をもたらしたわけです。
このように,ランダム化比較実験は,少ないコストとリスクで,有効性を統計学的に検証することを可能にしてくれる最強の武器だということが紹介されています。また,ランダム化の限界についての記載もあるので,詳しくは本書をご覧ください。
第5章 ランダム化ができなかったらどうするか 〜塾通いが学力に最も寄与する?〜
5章は専門用語が多く登場するので,盛りだくさんなのですが,学べることは主に次の点です。
- 回帰分析とは何か
- 回帰係数自体のバラつき
- 回帰分析の結果の読み取り
- 一般化線形モデルとは何か
- シンプソンのパラドックス
- 重回帰分析とは何か
- ロジスティック回帰とは何か
章のタイトルを回収しておくと,「ランダム化ができなければ,回帰分析すればいいじゃない!」ってことです。
本書では例として,「売上yを増やしたい企業が広告出稿量xを増やすべきか,減らすべきか」という話題が出てきます。散布図を使って「xを増やせばyが増える」という右上がりの関係があるのか,「xを増やせばyが減る」という右下がりの関係があるのかを見極めるのが回帰分析です。ところが,散布図にとった20個の点のうち3個を除いてしまうと,右上がりの関係が右下がりの関係へと逆転してしまう例が本書では示されています。つまり,標本のとり方によって,グラフの傾きが正から負へと変わってしまうのです。これは,困りますよね。広告出稿量を増やすべきか,減らすべきかが完全にひっくり返ってしまうわけですから。そこで,「傾きを幅をもって推定(区間推定)することが有効になる」という感じで回帰分析の話が展開し,重回帰分析へと進みます。そこでは「学力と階層(苅谷剛彦)」という本に載っている重回帰分析の結果が引用されていて,大阪府の小中学生の数学のテスト結果をもとに,様々な因子が学力にどれくらいの影響を与えるかを分析すると,最も学力に影響を与える因子として判明したのは「塾に通っているかどうか」でした。なかなか興味深いですね。
第6章 統計家たちの仁義なき戦い 〜IQと因子分析の関係〜
6章で学べることは,大きく分けると次の2つです。
- 統計学の6つの分野(社会調査法,疫学・生物統計学,心理統計学,データマイニング,テキストマイニング,計量経済学)の相違点
- ベイズ派と頻度論派の相違点
統計学の6つの分野については,専門的な内容に踏み込みつつ,詳細に語られているので,やや難しい印象を受けました。そのうち,心理統計学の紹介の中で登場するIQと因子分析の関係の話は読みやすくておもしろいです。
みなさんの日常の話題でも,「IQ」はきっと登場しますよね。「あの人はIQが高いから…」なんて言っている人は「IQとは何か」を本当に理解しているでしょうか。どうですか? ドキッとしませんか?
著名な心理学者ルイス・L・サーストンは,知能に関わる様々なテスト結果を因子分析し,知性を示す因子として次の7つを抽出したのです。
空間や立体を知覚する空間的知能
計算能力についての数的知能
言葉や文章の意味を理解する言語的知能
判断や反応の速さに繋がる知覚的知能
論理的推論を行う推理的知能
言葉を速く柔軟に使う流暢性知能
暗記力を示す記憶知能
そして,もう1人の著名な心理学者チャールズ・スピアマンは,こういった知能の側面どうしと相関の強い合成変数を作り出せることを示したのです。この合成変数を利用すれば人間の知能が測定できそうですよね。今日の知能テストはこれらとは少し違うもののようですが,その源にはこれらの心理学的研究があったわけです。
終章 巨人の肩に立つ方法 〜ニュートンの成功の秘訣〜
さあ,最後の終章は論文の調べ方についてです。おまけの章のようにも見えますが,個人的にはいちばん大事だと考えます。というのも,論文の検索なんてやったことない人が多いですよね。この章を読めば,論文という強力な武器を得ることができるわけですから,他の章はさておいて,この章だけでも読みましょう!
本書では,一貫してエビデンスに基づく意思決定の重要性が語られています。それを実現するためには「信頼できるエビデンスとは何か」を知らなければなりませんね。このエビデンスこそが論文なのですが,論文と言ってもいろいろあります。
まず,著者は信頼度の低いエビデンスの例として「専門家の意見」を挙げています。一方で,信頼度の高いエビデンスの例として「系統的レビュー」と「メタアナリシス」を挙げています。後半の2つが論文なんですが,ちょっとわかりにくいですよね。正確な定義は本書に譲るとして,簡単に表現すれば「多数の論文をベースにした論文」のことです。
そこで,本書では,JーSTAGEを使ってこれらの日本語論文を検索する方法や,Google Scholarを使って英語論文を検索する方法の例を示してくれています。論文を検索したことのない人ならば,まずは本書の通りに検索してみることをお勧めします。
そして,これが章名の「巨人の肩に立つ方法」なのです。「巨人」とは先人(研究者)のことです。
論文という形で先人が積み重ねてきた知恵の山があるのだから,それを利用させてもらえば,より遠くまで見通せるはずだというわけです。これについて,本書では,有名な物理学者アイザック・ニュートンの次の言葉を引用しています。
私が遠くを見ることができているのだとすれば,それは巨人の肩に立っていたからです
まとめ
「仕事や人生で結果を出すために,最も重要なものを挙げよ」と言われたら,みなさんなら何と答えるでしょうか。「最大限の努力をすること」とか「全力を尽くすこと」という答えが多そうですが,本書の中で筆者は「全力」と「最善」は異なると述べています。では,「最善」とは何かと言うと,「それを教えてくれるのが統計学だ」というのが本書の主張です。例えば,医療,教育,政策決定などでは,あらゆる決定はエビデンスに基づいて行うのが世界の潮流になってきていることが紹介されています。本書を読むことで,統計学を用いて科学的に何が「最善」であるのかを解明できることが感じられるでしょう。
コメント