【統計検定1級】データ解析のための数理統計入門を読む

【統計検定1級】データ解析のための数理統計入門を読む 統計検定1級

―本書は統計検定の準1級と1級(統計数理,統計応用)の内容にもほぼ対応している―初版第2刷以降の「はじめに」には,この文言が入っています。はたして,これは本当か,本稿では忖度なく一刀両断にしていきます。
本書(以下,青本と呼ぶ)は2023年10月に共立出版から出版されました。現在,著者の久保川達也先生は東大経済学研究科の教授であり,同じ出版社から出ている「現代数理統計学の基礎(以下,白本と呼ぶ)」の著者としても有名ですね。著者の慧眼によって様々な統計手法の本質が審らかにされていく様子は読んでいてとても刺激的であり,青本は私も好きな1冊です。本稿を読んで興味をもった人は,本書をぜひ購入してみてください。

青本は統計検定1級対策として適している

準1級は統計学の初学者や文系出身者でも努力すれば合格できる知識主体の試験であるのに対して,1級は難関国立大学理系2次試験を彷彿とさせるガチの数学力勝負の試験であり,両方に合わせるというのは原理的に不可能です。したがって,冒頭で取り上げた「ほぼ対応している」という表現は嘘とまでは言いませんが,誇張の匂いがします。詳細は追って述べますが,私が細部まで読んで出した結論は「準1級の勉強に使える部分もあるが,どちらかと言えば,全体的に1級の勉強に適している」というものです。そして,1級(統計数理)レベルのテキストと言えば白本ですから,まずは,青本の第1〜9章と,白本の第1〜8章を比べてみましょう。

この範囲は1級の統計数理の主要な部分に相当しますが,両者で全体的にほとんど同じ内容が扱われており,説明や証明の仕方にも多数の共通点が見つかります。つまり,白本の一部を流用して青本を作成することで原稿執筆の期間を短縮したことがうかがえます。

では,青本と白本の違いはどんなところにあるのでしょうか。以下では,章ごとに白本と比べながら青本の内容を見ていきましょう。

第1章 確率モデル

この章では,確率と条件付き確率が解説されており,白本の第1章と全体的に似たような内容ではあるものの,細かい部分で違いが見られます。例えば,白本では確率を定義するのに無限個の集合を扱っているのに対し,青本では有限個にとどめており,可測集合も定義していません。つまり,必要以上に複雑または抽象的な概念を扱わないようにしているのです。一方で,シンプソンのパラドックスやペアワイズ独立の説明が青本では追加されており,白本で手薄だった部分を補う工夫も見られます。
また,演習問題も大きく異なります。白本では集合に関する抽象度の高い問題が多いのに対して,青本は確率や条件付き確率に関する具体的な問題が多くなっています。準1級や1級の合格が目的であれば,後者がより適しています。

第2章 確率変数と確率分布

この章では,離散確率分布,連続確率分布,確率密度関数と変数変換が解説されており,おおむね,白本の第3章(一部分は第2章)に対応しています。白本では各確率分布の項目内にそれぞれの積率母関数や特性関数の説明を組み込んでいますが,青本では確率母関数や積率母関数の説明を後の章にまわしています。白本のように,確率分布の期待値や分散の多くを確率母関数や積率母関数から導出する形式だと,ともすれば直接的には計算できないかのような錯覚を与えかねないですが,青本では確率分布ごとに計算方法を工夫して期待値や分散を求めており,後の章で「確率母関数や積率母関数を使っても求められるよ」ということを示す構成になっています。
この章の演習問題の一部は白本から流用されていますが,小問を削ったり,式をシンプルな形で与えるなどして易化しています。また,白本に記載されている(1級より)難度の高い問題はカットされています。

第3章 2変数の同時確率分布

この章は,同時確率(密度)関数,独立性,条件付き分布,2変数の変数変換を扱っており,白本の第4章から期待値に関連する内容を省いたものになっています。多変数の同時分布の例として登場する多変量正規分布に関して,白本では分散共分散行列が正定値であることが書かれているのに対し,青本では「正定値」という仮定が(敢えて)スルーされているため,厳密に読もうとすればするほど混乱を招きかねない危険性があると感じます。また,独立性の説明で,離散と連続を同時に扱うために白本で使われている”dμX(x)”という表現が青本では使われていない点なども,むやみに難度を上げない工夫だと思われます。なお,タイトルで「2変数の」と言いつつも,「多変数の」説明も含まれています。
演習問題は準1級の学習者でも取り組めるような易しめの構成になっていますが,1級の学習者は白本の第4章の演習問題にもチャレンジしたほうが良いでしょう。

第4章 期待値と積率母関数

この章では,期待値の基本的な性質,条件付き期待値,積率母関数などが解説されており,白本の第2章から切り出されたような内容が中心になっていますが,大きく異なる点があります。それは,白本では特性関数を中心に説明されているのに対し,青本では積率母関数を中心に説明されていることです。準1級の学習者だけでなく,1級の学習者にとっても特性関数は後回しでよいので,どちらの場合でも青本を重宝するはずです。特に,aX+bの積率母関数,独立性と積率母関数の関係など,積率母関数の大事な性質が示されていることと,多次元分布の積率母関数が白本よりも多めに解説されているところがありがたいですね。
演習問題は,前半が準1級受験向きの易しめのもの,後半が1級受験向きのやや難しめのものになっています。

第5章 統計モデルとデータの縮約

この章では,順序統計量,十分統計量,階層モデル,ポアソン過程などが解説されています。十分統計量の説明は白本の第6章を踏襲し,順序統計量の説明も白本の第5章を踏襲していますが,最大統計量の分布,最小統計量の分布,一般の場合の分布の順に直感的にわかりやすい説明を優先する構成になっています。また,階層モデルの説明では,正規尺度混合分布,ガンマ・ポアソン分布,ベータ・2項分布の具体例が白本より厚みを増しています。そして,複合ポアソン分布の説明からポアソン過程へとつながっていきますが,ポアソン過程の解説が1ページ程度にとどまってしまっており,これだけで初学者が理解するのは難しいでしょう。あと,ここで条件付き独立も例を伴って説明されていますが,これは白本にはない内容です。
この章の演習問題には,準1級受験に向いているものはなく,すべて1級受験向きです。青本では,順序統計量の取り組みやすい問題が増えている一方で,十分統計量の問題が不足しますから,この部分は白本の第6章の演習問題で補う必要があります。

第6章 大数の法則と中心極限定理

白本の第5章では,大数の弱法則に加えて,発展的事項の中で大数の強法則を扱っていますが,青本では大数の弱法則を大数の法則として扱うのみになっています。また,確率収束と平均二乗収束に関して,白本では確率変数への収束を定義しているのに対して,青本では定数への収束しか定義しておらず,あくまで必要のない内容は持ち出さないポリシーが貫かれています。そして,中心極限定理は,白本では特性関数を使って証明されているのに対して,青本では積率母関数を使っており,証明に入る前にポアソン分布の正規分布への収束の例が挙げられている点もわかりやすいです。
この章の演習問題も1級受験向きですが,白本の第5章よりも取り組みやすい問題が多くなっています。大数の法則の例として登場しているモンテカルロ積分に関連する問題も追加されており,準1級の学習者で余裕のある人は取り組んでみると良いでしょう。

第7章 正規分布から導かれる分布

この章は,カイ2乗分布,t分布,F分布,および正規母集団を仮定した場合の標本平均と不偏分散の分布を扱っていて,白本の第5章から切り出された内容となっていますが,証明の方法に変化がつけられています。最も顕著に異なるのは,標本平均と不偏分散の独立性と確率分布の証明で,白本ではHelmert行列を用いて示されているのに対し,青本では多変数の積率母関数を用いて示されています。ここで唐突にHelmert行列を持ち出すよりも,積率母関数を使ったほうが違和感なく受け入れられやすいという判断だと思われます。また,t分布の確率密度関数の導出に関しても,白本では約1ページかけて示していたものを,青本では正規尺度混合分布の特別な場合としてあっさりと処理しており,読み進めやすくなっていると感じます。
この章の演習問題は,白本の第5章よりだいぶ易しめです。準1級の学習者でも取り組める問題から1級の学習者にちょうど良い問題まで並んでいます。

第8章 パラメータの推定

推定量の話に入る前に正規分布,指数分布,ポアソン分布をデータにあてはめてパラメータを推定する例からはじまっており,対応している白本の第6章に比べて敷居が低くなっています。続いて,モーメント法を経て最尤法の説明に入ると,白本の最尤法の定義で「sup」となっているところを青本では敢えて「max」としていて,ここでも読者が難しいと感じる要素を排除しようとしていることが感じられます。さらに,フィッシャー情報量の性質を示すための条件を詳しく述べずに「正則条件」という言葉で濁した上で,MLEの漸近正規性の証明を白本より簡略化し,MLEの一致性と不変性の証明は完全に割愛されているので,詳しく学習したい人は白本を見る必要がありますが,統計検定受験者層の多くはそこまで必要としないでしょう。この章は,最後のラオ・ブラックウェルの定理を含めて,重要な定理が目白押しですが,それぞれに簡単な例を配しているところにも気遣いを感じます。なお,この章の演習問題(特に問3以降)は1級レベルです。

第9章 仮説検定と信頼区間

白本の第7章では母数空間の定義からはじまり,集合の記法に不慣れな人を寄せ付けない印象を抱かせるのに対し,青本では具体例からはじめ,数学的な記述を後回しにすることで最初のハードルを低くしています。また,正規母集団に基づく1標本のt検定,2標本の平均・分散の同等性検定に関して,青本では尤度比検定から一つひとつ導出していく説明になっていて納得感を得やすいですが,ここはやや行間が広いので,丁寧に計算して流れについていくことが大切です。その後は,ネイマン・ピアソンの補題,ワルド検定,スコア検定,信頼区間,相関係数の検定の説明が続きますが,相関係数の検定の説明が青本にしかない一方で,一様最強力検定や信頼区間についての詳しい説明は白本にしかありません。
白本の第7章の演習問題は各種検定の一般論に関わる問題が多くなっていますが,青本は工夫された問題が多いので,1級の学習者は青本のこの章の演習問題をかなり楽しめるでしょう。

このように,青本の第9章までと白本の第8章までは,ほとんど同じ範囲を扱いつつ,青本はやや厳密性を犠牲にしつつ,白本よりシンプルで読みやすいものになっています。1級の統計数理の受験予定者は,青本と白本のどちらで学習を進めても問題ありませんが,より詳しく厳密に学びたい人は白本,できるだけ易しく学びたい人は青本が良いと思います。なお,第4章までならば,数学的にやや難しい部分はあるものの,準1級の学習者も読んで損はしないでしょう。

青本は準1級対策としては使えないのか

前のセクションで見たように,青本の第9章までは1級(統計数理)の学習者に特に適していました。では,青本の第10章以降はどうでしょうか。結論から言えば,「準1級の勉強に使える部分もあるが,どちらかと言えば,全体的に1級(統計応用)の勉強に適している」と考えます。準1級の学習用書籍として青本が不十分なのはなぜかと言えば,次の2点に要約できます。

  1. ページ数が不足しており,駆け足で要点を確認するだけにとどまる単元が多い
  2. 準1級のワークブックに収録されている単元のうち,青本では全く扱われていない単元も少なくない

なお,2.の「全く扱われていない単元」を列挙すると,次の通りです。

  • マルコフ連鎖
  • ブラウン運動
  • 標本調査法
  • パス解析
  • その他の多変量解析手法
  • 時系列解析
  • 分割表(対数線形モデル)
  • 不完全データの統計処理

準1級は広く浅く理解を問う試験なので,広範囲をカバーしているかどうかがとても重要です。また,文系出身など,数学からしばらく離れていた人も大勢受験するので,数学が苦手な学習者でも読めることも大切です。その意味で,青本だけで準1級対策を済ませられる人はかなり限定的だと思われます。では,実際に,第10章以降の青本の内容を見ていきましょう。

第10章 カイ2乗適合度検定と応用例

この章の前半の適合度検定,独立性の検定は白本の7.4節に対応しており,統計検定2級でも学習していますが,多項分布をベースに自由度をどのように計算するか,などを学び直すことができます。適合度検定の検定統計量が帰無仮説のもとでカイ2乗分布にしたがうことの証明は白本には書かれていますが,青本では多項分布モデルのもとでの尤度比検定統計量と近似的に等しいことが説明されています。この章の後半は白本にはない内容であり,分布系の検定として,Q-Qプロット,正規性の検定,指数分布の検定,ポアソン分布の検定が扱われており,これらの詳しい説明がある書籍は少ないことから,重宝することでしょう。なお,演習問題には,準1級の学習者でも解けそうな新作の問題が並んでいます。

第11章 回帰分析―単回帰モデル―

この章は白本の9.1節に対応しています。白本では前置きを少なめにして回帰モデルの仮定を述べはじめますが,青本では誤差項を導入する前に具体例に沿って回帰直線を求めていて,記述統計の範囲内の説明を展開しています。また,最小2乗推定量の期待値,分散,共分散の導出,決定係数の式変形では,白本の行間を補うように途中式が少し丁寧な書き方に変更されているので,助けになるでしょう。そして,白本とは大きく異なるのが,この章の後半の残差分析(分布の正規性,分散の不均一性,系列相関)と外れ値の有無の説明であり,白本では1ページ程度で済ませていた部分を7ページ程度に大幅に拡充しています。ダービン・ワトソン検定,コクラン・オーカット法,てこ比,クックの距離について,簡単な数式による説明があることは,準1級の学習者にとってはありがたいでしょう。なお,演習問題には,準1級の学習者でも取り組める問題から1級の学習者にちょうど良い問題まで並んでいます。

第12章 重回帰モデル

この章は白本の9.2〜9.3節に対応しています。最小2乗推定量の性質の導出については,白本で行間が広めになっていたところを,青本では定義を明確にしたり,補題を並べたりすることで,スムーズに理解できるように工夫されています。また,射影行列Pを導入し,最小2乗推定量の幾何学的解釈に触れているのも青本の特徴です。後半では,自由度調整済み決定係数,AIC,クロスバリデーション,多項式回帰が扱われていますが,白本に記載されているマローズのCp規準,BICは省略されています。白本の9.3節は1級を超える難度ですが,青本では4つのモデルの比較に使うことで具体性をもたせています。なお,この章の演習問題は,1級の学習者ならばチャレンジしてみたいものが並んでいます。

第13章 ロジスティック回帰とポアソン回帰

この章は白本の9.4節に対応していますが,説明の仕方はだいぶ異なっています。白本では多変数のロジットモデルとプロビットモデルを同時に説明していますが,青本では説明変数を1つにした上で,これらを分けて説明しており,具体例も取り入れています。また,白本に記載のある回帰係数の確率分布,検定,信頼区間の話題は青本ではカットしてシンプルに仕上げています。しかし,ポアソン回帰も含めて8ページでまとめているため,説明がやや駆け足になっていることは否めません。論理的にギャップができている部分も読み流すことなく,自分で1つずつ確かめながら読んでいく必要があります。なお,演習問題の問1は1級の学習者なら解いておきたいところですね。

第14章 ベイズ統計とMCMC法

この章の前半に対応する内容は白本の6.2.3項にありますが,唐突に数式が出てきたりして,初学者なら困惑してしまうような書き方になっています。著者のサイトには,その点を補うような補足のPDFがアップされており,それをさらに肉付けしたのが青本のこの章になっています。特に,準1級で主要な内容となるベルヌーイ・ベータモデル,分散既知の正規分布モデル,ポアソン・ガンマモデルは数式が追えるように書かれています。14.3節と14.4節をとばし,14.5節はマルコフ連鎖モンテカルロ法で,採択・棄却法,ギブスサンプリング,MH法などが扱われています。変数の数を減らして説明をシンプルにしたり,一つひとつに具体例を示すなど,読者への配慮が感じられます。ただ,演習問題には準1級の学習者でも解けるくらいのもっと易しいものを入れてもらえると良かったのになあと思います。

第15章 分散分析と多重比較

1元配置分散分析において,「水準間平均平方を誤差平均平方でわった確率変数が帰無仮説のもとでF分布にしたがうのはなぜか」という点と,多重比較に全14ページのうちの約6ページを割いています。2元配置分散分析は3ページのみ,乱塊法や直交表にいたっては全く扱われていないので,準1級の学習者から,「解説してほしいのはそこじゃない」という声が聞こえてきそうです。また,1元配置分散分析の説明で分散分析モデルを導入したものの,「一般平均とは何か」などの説明が欠落しています。そして,2元配置分散分析では,交互作用効果の説明が1行のみで,それ以外も結果を淡々と述べるにとどまっており,全体的に初学者にとってハードルが高いものとなっていると感じます。

第16章 分布によらない推測法

この章の内容は多岐にわたっていますが,ブートストラップ法,ノンパラメトリック検定,生存時間解析に大別できるでしょう。ノンパラメトリック検定では,符号検定,符号付き順位和検定,2群の順位和検定,クラスカル・ウォリス検定などについて,検定統計量や期待値,分散がどういう考え方に基づいて導出されているかが書かれていて,生存時間解析では,コックスの比例ハザードモデル,カプラン・マイヤー法などが数式ベースで説明されています。ブートストラップ法を含め,どれも具体例を交えて説明しているものの,抽象度の高い記述が中心となっており,数学に慣れていないとつまずくかもしれません。なお,この章の演習問題は準1級の学習者にちょうど良いくらいのものが並んでいます。

第17章 多変量解析手法

この章では,主成分分析が約3.5ページ,判別分析が約4ページ,因子分析が約2ページ,クラスター分析が約2ページで解説されています。もちろん,これらは白本にはない新設の内容であり,「準1級(または統計応用)に対応」と謳うために盛り込まれたものと推察しますが,さすがにこのページ数では初学者向けの解説は不可能です。それぞれの分野で最低限の要点がまとめられており,主成分分析では,分散の最大化を固有値問題に帰着できることと分散共分散行列のスペクトル分解に立脚していることが説明されています。判別分析では,誤判別リスクの式から2次判別と線形判別を導き,線形判別とロジスティック判別との関係を述べています。因子分析では,2因子モデルを行列で表し,推定に回転の自由度があることを説明しています。クラスター分析では,最短距離法による階層的な分類の例が示されています。どれも絞られた内容に関する端的な説明があるだけなので,これらの分野をしっかりと学びたければ,より詳しい解説のある他の書籍に頼ったほうが良いでしょう。演習問題も問1〜9まであるものの,一般論を答える問題が多いのが残念です。

このように,第13〜17章は少ないページ数での端的な説明が中心であり,初学者に適しているとは言えません。ただし,洗練された記述も多く見られるので,準1級に合格済みの人が1級の統計応用の勉強の端緒とするなどの目的であれば有用でしょう。なお,準1級の内容を広範囲にカバーし,初学者でも十分に学習できるように丁寧に解説した講座は私のほうで作成し,noteにて提供しておりますので,準1級合格を目指す方はそちらもご検討ください。(リンクはこちら

また,準1級のワークブックをやりつくしてしまった人が演習問題の不足を補う目的で青本を使うということも考えられます。そこで,青本の演習問題をすべて解いた上で,準1級の学習者が解いておいたほうがよさそうな章末の演習問題を下の表にピックアップしておきましたので,参考にしてください。なお,演習問題の解答は著者のサイト(リンクはこちら)からダウンロードできます。ただし,解答にもかなりの数の誤植がありますので,ご注意ください。

まとめ

本書は,久保川先生の新刊ということもあり,私は2023年10月の発売を楽しみに待ち,発売後すぐに購入しました。そして読み始めてすぐに残念なことに気づきました。発売を遅らせないために慌てて編集したのか,誤植(というか,編集上のミス)が多いのです。発売後しばらくしてから,著者のウェブサイトに正誤表が掲載されましたが,正誤表の内容を本に転記するのも大変ですし,正誤表に載っていない(致命的な)誤りもまだまだあります。内容的には白本より読みやすく,おすすめできる面もあるのですが,誤りに注意しながら読む姿勢が大切だと言えます。

しかし,統計検定1級の勉強をしていて白本の難しさに心を折られていた人も少なくないと思いますので,そういう人にとって,本書は大いに助けになるでしょう。特に,これだけの数の1級にちょうど良いレベル感の演習問題を用意することは大仕事なので,著者には感謝の気持ちでいっぱいです。本書の内容を自らの血肉とするために,自分の手と頭をしっかり動かして演習問題と格闘してみてください。がんばりましょう。

コメント

タイトルとURLをコピーしました