【統計検定1級・統計応用】4分野の選択方法

【統計検定1級・統計応用】4分野の選択方法 統計学

統計検定1級は,午前に実施される「統計数理」と午後に実施される「統計応用」の2種類の試験で構成され,両方に合格してはじめて1級の合格となります。統計数理の勉強法については別の記事(リンクはこちら)で紹介したので,本稿では統計応用について,直近の2024年までの4分野の出題内容を踏まえ,これから受検する人が選択する分野を決める際に参考になるようにまとめています。また,私が1級に合格した際に選択した人文科学については,過去問の具体的な内容に踏み込んで,詳しく説明しています。

統計検定1級の試験に合格するために

1級の試験の概要とその価値については統計数理の記事に書いたので,ここでは合格点を勝ち取るために気をつけるべきことを一般的に述べていきます。まず,当たり前ですが,問題番号や受験番号の記入もれのないようにしてください。受験番号は解答冊子のすべてのページに記入欄があるので,最初にまとめて書けば漏れが発生しにくいです。また,問題番号を自分で記入することに慣れているという人はあまりいないでしょう。問題番号を書き忘れると,どの問題に対する解答なのかが判別できないため,当該のページについては0点扱いになると思われます。

当たり前のことをもう1つだけ言っておくと,計算ミスはほとんどゼロにできるようにしましょう。計算ミスはトレーニングによって減らせます。大学入試などの数学の試験で結果が出せる人は無駄な失点をなくすためにハンパない量のトレーニングを積んでおり,自分の計算が正しいことに自信が持てます。一方で,数学の試験が苦手な人だと,「解けたつもりになっていたが実は計算ミスで間違っていた」ということが起きてしまい,この差は致命的と言えます。もし,あなたが模範解答を見るまで自分の解答に自信が持てないのだとすれば,自力で正しい答えを出すことを意識して毎日問題演習を積み,計算力を底上げしていきましょう。

では,もう少し踏み込んで,1級の試験で得点を上げるために意識しておきたい点を説明していきます。それは次の3点です。

  • 時間の効率性を優先する
  • 計算過程も書くが,書きすぎない
  • 他人が読んでわかる記号の使い方をする

まずは時間の効率性について。90分の試験時間は多くの受検者にとっては短く感じられます。迷っていたりすると,あっという間に時間を失い,合格が遠のきます。そのため,5大問の中で解答する3大問を素早く適切に選ぶことがめちゃくちゃ大事になります。5大問をすべて解く時間はないので,問題文を読んだだけで解答の道筋が見えて最速で完答が見通せる3大問を選ぶことになります。この最初のステップでしくじると致命傷になりかねないので,自分ならどういう判断基準で問題を選ぶか,イメージしておきましょう。

次に,解答の記述について。1級には,「答えを書くように求められる問題」と「言葉や数式で説明するように求められる問題」の2種類がある点に注意してください。問題冊子の表紙には,答えが合っていない場合に途中経過を書いておけば部分点をもらえる可能性がある旨が書かれていますので,基本的には途中経過を書いていくことになります。しかし,問題を読んですぐに答えがわかる場合や途中経過の書きようがない問題があり,その場合には無理に書く必要はないと思われます。実際に,私が受検したときにも答えしか書かなかった問題がいくつかありましたが,それらがほぼ満点をもらえていると試験結果から推測できます。また,途中経過が必須の問題では,思考の流れが採点者に伝わる程度のちょうど良い書き方を目指しましょう。思いつくままに書かれた解答は採点者にとって読みにくく,採点を放棄したくなります。同じ計算過程を何行使って書くかは人によってばらつきがありますが,思考の流れが伝わる範囲でうまく行数を削りつつ,できるだけ短時間で採点者が読みやすい解答を書き上げることを意識しましょう。なお,大問によっては「計算過程も書くこと」とリード文に断り書きがあることがあるので,このタイプは答えだけが正しく書かれていても点数はほとんど与えられないでしょう。

さらに細かいことですが,記号の使い方を事前に決めておくといいです。期待値・分散をはじめ,設問に解答するには多種多様な記号を用いますが,人によって記号の書き方が異なるものが少なくありません。問題文で使われている記号はそのまま使うとしても,それ以外の記号が必要になることもあるので,過去問を解いたときによく使う記号をリストアップしておきましょう。くれぐれも,自分にしかわからないような記号を何の断りもなく使うことのないようにして,問題文にない記号を使うときには採点者に意味が伝わるように書きましょう。

なお,合格最低点は公表されていません。おそらく,試験を実施した後に,得点の分布を見て合格最低点を調整しているものと思われます。60〜70点が目安だと思われますが,試験中には普段の実力の7割くらいしか出せないことを想定し,過去問演習では「どの大問もパーフェクトまたは1ミス」くらいの得点が取れるように準備しておきましょう。

統計応用4分野の出題傾向と対策

統計応用は,人文科学,社会科学,理工学,医薬生物学という4つの分野に分かれており,そのうちの(少なくとも)1つに合格する必要があります。どの分野を受検するかは,試験当日ではなく,1級の受検申込みまでに決める必要があります。もし,これらの4分野の中にあなたにとって興味のある分野があれば,迷うことなくその分野を選びましょう。例えば,あなたが製薬会社に勤務していれば,医薬生物学で受検すれば熱意をもって勉強できることでしょう。しかし,「興味関心だけでは選べない」という人も少なくないはずです(私もそうでした)。そこで,「合格を勝ち取るために自分ならどの分野を選ぶか」という視点で見ていくことにしましょう。次の図は,統計応用4分野の出題内容をざっくりとまとめたものです。

 

では,分野別に見ていきます。まず,人文科学は心理学や教育学と関わるカテゴリーですが,それらの学問の色彩はそれほど強くないので,人文科学系の専攻ではなかった人でも違和感なく問題を解いていけるでしょう。人文科学の試験で最も多く出題されているのは多変量解析であり,それに次いで多いのが,2変量正規分布,切断された正規分布,混合正規分布などの確率分布に関する出題です。直近の2024年を見てみると,問1と問4が多変量解析,問2と問3が確率分布に関するものになっており,いずれも準1級の知識でほぼ完答できるものであるため,先に準1級の学習をすませていた人にとっては解きやすかったと思われます。ちなみに,2024年の共通問題(問5)も準1級の知識で解けます。ということで,人文科学の対策例として,次のような手順が考えられるでしょう。

  1. 準1級のCBTで80点以上の得点で合格できる力をつける
  2. 共分散構造分析を学習する
  3. (可能ならば)標本調査法や項目反応理論を学習する
  4. 過去問を解く

私が人文科学の試験に合格したときに実際に行ったのが上の4つの手順に基づく学習です。手順2で取り上げている共分散構造分析は,因子分析やパス解析,構造方程式モデリングを含む分野名です。これらの内容の一部は準1級範囲に含まれていますが,範囲外の内容もあるため,一度しっかりと勉強しておきましょう。手順2として共分散構造分析を取り上げる理由は,この分野が(後述の過去問分析にあるように)2013〜2024年の過去問で多変量解析の中でもとりわけ多く出題されているためです。手順3の標本調査法や項目反応理論は出題頻度が高くないので,時間がとれない場合は手順3をパスして手順1,2,4だけしっかり勉強する方針もアリです。

次に,上の手順に基づいて勉強していく場合にオススメの教材を紹介します。まず,準1級の内容をしっかりと理解する必要があります。その際に代表的なのは言うまでもなく次のテキストになるでしょう。

統計学実践ワークブック(日本統計学会編,学術図書出版社)

ただし,準1級の勉強をするとしても,どのくらいの深さまで理解するのか(数式をどこまで追うか)は人それぞれ異なることでしょう。私が作成した統計検定準1級講座(リンクはこちら)は,1級統計応用への接続も意識して「深さ」を決めているので,良かったらこちらも参考にしてください。

次に,共分散構造分析については,これまでの出題傾向を見る限り,各種の概念と基本的な計算法をおさえれば十分であり,例えば,次の書籍の第6〜9章を読んだ上で過去問を解いてみるのがいいでしょう。

Rによる多変量解析入門(川端・岩間・鈴木,オーム社)

本書は書名の通り,多変量解析全般を解説したもので,確認的因子分析,パス解析,構造方程式モデリングの要点がよくまとまっており,適度に数式が登場する感じで平易で読みやすいです。特に,2015年の人文科学の問2で問われているパラメータの次元に関する説明もあります。Rを使いながら学習を進めやすいように作られていますが,Rを使わない人でも各分野の要点を学習する目的で十分に使うことができます。

また,共分散構造分析,因子分析,パス解析,構造方程式モデリングの各概念やこれらの関係性を平易に解説した次の書籍もオススメです。

多変量データ解析法(足立浩平,ナカニシヤ出版)

パス解析における操作変数法については,次の書籍の6番目の章に解説があります。

グラフィカルモデリング(宮川雅巳,朝倉書店)

次に,項目反応理論については,過去問を見る限り,基本的なことをおさえておけば十分であり,例えば,次の書籍がオススメです。

項目反応理論[入門編](豊田秀樹,朝倉書店)

本書は項目反応理論をゆっくりと丁寧に説明した良書で,項目分析を解説した第1章と1〜3母数のロジスティックモデルおよび正規累積モデルを解説している第2章まで読めば人文科学の過去問には対応できます。事前知識として,広義積分とロジスティック回帰くらいを知っておけばスムーズに学習できるでしょう。

標本調査法については,次の社会科学の欄に書いておくので,そちらを参考にしてください。

次に,社会科学は計量経済学と関係が深いカテゴリーで,経済学と関連する話題を題材とする問題も出題されます。頻出分野は,第1に標本調査法で,第2に時系列解析であり,これらはほぼ毎年のように出題されています。したがって,まずは標本調査法と時系列解析の基礎を固めることが重要になりますが,両分野とも幅広く様々な手法が出題されており,表面的な理解ではなく,広くかつ深く学習していくことが必要となります。

では,オススメの教材を紹介します。標本調査法については,最初は過去問から学習をはじめるという方法も悪くないです。ネイマン配分については,2024年の出題(問1)や2021年の出題(問1)から学べて,重み付け解析については2022年の出題(問1)が教育的で学べることが多いでしょう。あるいは書籍でしっかり勉強するなら,次のものをオススメしておきます。

概説 標本調査法(土屋隆裕,朝倉書店)

また,時系列解析については,経済とファイナンスに焦点を当てて,ARMAモデルとユール・ウォーカー法,ARCHモデルなどを扱っている次の書籍がオススメです。

計量時系列分析(沖本竜義,朝倉書店)

そして,パネル分析(固定効果モデル・変量効果モデル),操作変数法,時系列解析を含む計量経済学で用いるモデル全般を解説しているのが次の書籍です。

計量経済学(西山・新谷・川口・奥井,有斐閣)

次に,理工学は工学系,特に品質管理と関係が深く,管理図などにも興味をもてる人に向いていると言えます。頻出分野で言うと,第1に分散分析・実験計画法,第2に確率分布であり,さらに信頼性解析,時系列解析と続きます。確率分布は統計数理の勉強をしておけば十分ですが,分散分析・実験計画法に関しては,3水準系直交表や分割法なども含めて解説されている次の書籍がオススメです。

実験計画法と分散分析(三輪哲久,朝倉書店)

次に,信頼性解析は生存時間解析と共通する部分があり,IFR,DFRなども含めたハザード関数,生存関数の解説は次の書籍の第4章が参考になるでしょう。

不完全データの統計解析(岩崎学,エコノミスト社)

また,時系列解析は社会科学の欄を参考にしてください。

最後に,医薬生物学では,ランダム化比較試験などの形で新薬が従来品と比べて効果が高いと言えるかどうかを検証するような設問が特徴的です。具体的な出題分野としては,準1級で出題されるようなノンパラメトリック法,生存時間解析,分割表解析に加えて,メタアナリシス(変量効果モデル,固定効果モデル,混合効果モデル,オッズ比,リスク比など),統計的因果推論(平均処置効果,傾向スコアなど),仮説検定(尤度比検定,スコア検定など)といった非常に幅広い内容にわたります。このうち,オッズ比,リスク比,ROC曲線などを含めて,メタアナリシスを全般的に解説したものとして,次の書籍をオススメします。

新版メタ・アナリシス入門(丹後俊郎,朝倉書店)

また,傾向スコアのバランス特性など,統計的因果推論についての網羅的な解説書として,次の書籍をオススメします。

統計的因果推論(岩崎学,朝倉書店)

 そして,生存時間解析について,部分尤度やネルソン・アーレン推定値などを含めて解説されているものとして,次の書籍をオススメします。

生存時間解析(杉本知之,朝倉書店)

ここまでの説明を踏まえて,「合格を勝ち取るためにどの分野を選ぶか」という観点でまとめると,

  • 準1級→1級の順に進むならば人文科学
  • 標本調査法,時系列解析,経済指数を極められそうならば社会科学
  • 分散分析・実験計画法,時系列解析,品質管理を極められそうならば理工学
  • メタアナリシス,統計的因果推論,生存時間解析を極められそうならば医薬生物学

という感じになります。

人文科学の過去問分析

統計応用では各分野で問1〜問5の5大問が出題されますが,そのうちの問5は2013年以降は4分野共通問題です。ここでは,2013〜2024年の4分野共通問題(問5)と人文科学の過去問(問1〜問4)をもとに,大問ごとの難易度やポイントを説明していきます。人文科学の頻出分野についてはこのセクションの最後にまとめますが,出題傾向の特徴として次の3つが挙げられます。

  • 2021年以降は大問ごとの難易度の差が小さくなっている
  • 過去に出題された問題と似たものが出題されることがある
  • 準1級の知識だけで解ける問題が毎年3大問くらいはある

難易度は★の数によって4段階で評価しており,「★★」は1級として標準的な大問で,ここまで完答できるようにしておくことが望ましいです。「★」は標準より易しめ,「★★★」は標準より難しめ,「★★★★」は激ムズです。

2024年

〈問1〉主成分分析(★★)
〈問2〉2変量正規分布と条件付き期待値・分散(★★)
〈問3〉非復元抽出と超幾何分布(★★)
〈問4〉多次元尺度法(★★)
〈問5〉重回帰分析(★★)
【総評】準1級相当の知識だけで完答できる5大問が並んだ。〈問1〉は主成分分析のオーソドックスな問題。1つの設問中に答えるべき数値が複数あり,解答漏れがないように注意しつつ確実に得点したい。[2-2]の問題に5変量正規分布が登場するが,実際には線形変換を施した後の1変量の分布を考えるだけなので難しくない。〈問2〉は2変量正規分布に関して条件付き期待値や条件付き分散を計算するもので,頻出の題材。どの問も結局は1変量に帰着するので難しくはないが,最後の空欄では期待値のくり返しの公式を使った計算の習熟度で差がつくと思われる。〈問3〉は全体的に超幾何分布が背景にあるが,そのことは意識しなくても容易に解ける。周辺分布がベルヌーイ分布であるだけに[3]を二項分布と勘違いする可能性がある点と,[5]でT5=5の条件をどのように式に反映するかという点でつまずかないようにしたい。〈問4〉の[1]は具体的な計算。[1-2]は固有値,固有ベクトルが与えられているので間違えようがないが,[1-1]は3次正方行列の積を複数回計算するのでミスが生じやすい。[2]の一般論を説明する部分は,2015年の過去問に同じような出題があるので,過去問演習をしっかりやれたかどうかが得点に直接的にはね返るだろう。〈問5〉は単純な計算問題の[1]からはじまり,文字で条件を表す[2],[3],分散,共分散を求める[4]まで解答方針に迷う余地がない。最後の[5]で決定係数を相関係数の2乗として求められるかどうかで少し差がつくかもしれないが,全体的に計算量も少なく,完答へのハードルは低い。

2023年

〈問1〉混合正規分布(★★★)
〈問2〉偏相関係数とパス解析(★★)
〈問3〉2変量正規分布と判別分析(★★)
〈問4〉単回帰分析(★★)
〈問5〉モンティ・ホール問題(★★)
【総評】〈問1〉の[1]は易しいが,[2]で全体の分散を条件付き分散を使って求められるかどうかで篩にかけられることになる。[3]では2つの確率密度関数と混合比から全体の確率密度関数が単峰であることを見抜き,その最頻値の位置を確率密度関数を微分することで調べていくが,数学的な処理の巧拙によってここでも点差が開くだろう。〈問2〉は全体的に計算が易しめで,概念の理解と解釈に重点が置かれている。[1]〜[3]は設問の指示にそって計算を進めれば,特に迷うことはないと思われる。[4]は相関のない2科目の得点に対し,合計点を固定した場合の相関について考えさせる問題。計算量は拍子抜けするくらいに少ないが,統計学的には意味のある設問なので,教材としての価値はある。〈問3〉の[1],[2]では行列とベクトルの計算ができるか,[3]では2変量正規分布の性質を理解しているか,[4]では訓練データと誤判別率の関係を理解しているかが問われているが,どれも標準的であり完答しやすい。〈問4〉は全体的に2級相当の知識で解答できるが,分水嶺となるのは[3]である。yをx上に回帰する[1]の結果を式変形してもxをy上に回帰する[3]の結果は得られないことを理解した上で,問題で与えられた回帰の残差分散を用いて,回帰係数を計算する。難問ではないが,時間の限られた試験会場では焦りが生じやすく,容易に完答できる大問とは言い難い。〈問5〉も2級の知識があれば十分に完答できる。[2]はモンティ・ホール問題そのものだが,「なんとなく知っている」程度では通用せず,「2/3であることを示す」にはきちんとした理解が必要である。モンティ・ホール問題を少し一般化した[3]と同じ題材を二項検定に結びつける[4]は,題意を正しく捉えられれば初見でも十分に正解できる。

2022年

〈問1〉混合分布の要約統計量と正規分布(★★)
〈問2〉2変量正規分布と判別分析(★★★)
〈問3〉クラスター分析(★★)
〈問4〉クロンバックのα係数と因子分析(★★)
〈問5〉2変量正規分布と条件付き期待値・分散(★★★)
【総評】〈問1〉は会話文と資料を読み取る形式になっているが,実は会話文は読まなくても解けるようになっており,必要な情報だけに目を通して手早く解答できるかが勝負所。本問でいちばん難しいのが[1]で,混合分布に対して条件付き分散の考え方を用いる。ここを通過できれば,平均,分散,相関係数といった統計量を計算する[2],[3]や,正規分布表を使って確率を求める[4]も易しい。実質的な難易度は「★」だが,情報の読み取りの要素を加味して「★★」にしてある。〈問2〉の[1]〜[3]は準1級レベルを超えるものではなく標準的である。[4]は,[3]とは条件の与え方を変更して誤判別の確率を最小にするような2群判別のしきい値を求めるが,解き切れるかどうかは数学的な基礎力にかかっている。〈問3〉の[1]は最短距離法と最長距離法の基本問題。[2]はk-means法の問題で,初期クラスターからクラスターを更新する計算を行う際に,クラスター内変動の計算式として問題で与えられている2つの式の関係を理解しているかどうかで計算量が大きく変わってしまう点に注意が必要。〈問4〉の[1]では,測定の信頼性と妥当性についての知識が必要であり,つまずく人もいるだろう。[2]以降では,与えられたクロンバックのα係数の式を使えばよいので,特別な知識は不要で解きやすい。[4]では因子分析モデルを仮定するが,準1級相当の知識があれば十分に対応できる。〈問5〉の[1],[2]は2変量正規分布の性質に関するもので,頻出の内容。[3]以降ではモデルの設定が追加され,初見でどれだけ対応できるかが問われる。[3]は基本的だが,[4]は(θ,X)が2変量正規分布にしたがうことを看破する必要があるため,差がつきやすい。

2021年

〈問1〉アンケート調査(★★)
〈問2〉2×2分割表と超幾何分布(★★)
〈問3〉因子分析と主成分分析(★★★)
〈問4〉2要因混合計画(★★)
〈問5〉感度と特異度(★★)
【総評】〈問1〉の[1]〜[3]はアンケート調査と標本抽出についての理解を問う記述問題が並んでおり,得手不得手が分かれやすい。[4]は計算問題で,母比率の信頼区間を求めるものと,適合度検定に関するもの。これらも難しくはないが,間違いやすいポイントはあるので,注意深く計算したい。〈問2〉の[1]〜[3]では,ファイ係数とカイ2乗統計量をひたすら計算する。[1]は定義通りに計算するだけで易しいが,[2]と[3]では最大値と最小値をそれぞれ求めるため,整理してケアレスミスを防止することが大切。また,[4]は超幾何分布を利用して確率と期待値を計算するが,考えられる分割表が3通りしかないので難しくはない。〈問3〉の[1]では,与えられた因子負荷量行列から相関行列を求める際に4次正方行列を計算しなければならないが,難しくはない。しかし,[2]はこの4次正方行列の固有値を求めるものであり,線形代数の知識の有無によって明暗が分かれる。[3]は,与えられた因子負荷量行列を単純構造に近づける回転行列を求める問題で,同種の問題の経験があれば解けるだろう。[4]は,因子分析としての累積寄与率と主成分分析としての累積寄与率を比較し,それらが異なる理由を答えるものであり,表面的な理解だけでは太刀打ちできない。〈問4〉は2要因混合計画の仕組みを理解していないと手がつけられないと思われる。逆に,その点さえクリアできれば,[4]の等分散を仮定した2標本t検定と同等であることの確認や,[5]のダミー変数を用いた単回帰分析による表現もスムーズにこなせるだろう。〈問5〉の[1]〜[4]では,問題文で与えられた用語の定義にしたがい,正規分布とベイズの定理を使って確率を計算する。方針は明確であるが,小問ごとに答えるべき数値が複数あるため,根気よく正確に計算していくことが求められる。[5]は,偽陰性率と偽陽性率のトレードオフに関する記述問題であるが,問題の意図を汲むことができるかどうかが分かれ目になる。

2019年

〈問1〉切断された正規分布(★★)
〈問2〉クラスター分析(★)
〈問3〉項目反応理論(★)
〈問4〉共分散構造分析(★)
〈問5〉適合度検定(★★★)
【総評】〈問1〉の[1]〜[3]は即答できる問題が並ぶ。[4]の条件付き分散を落ち着いて計算できるかどうかで完答できるかどうかが決まる。〈問2〉の[1],[2]は階層的クラスター分析に関する準1級レベルの易しい設問。[3],[4]はk-means法に関するものであり,サイズ6のデータのうちの2つを初期代表点としたときのクラスターの更新を手計算する[3]も,初期値依存性について記述させる[4]も基本的である。〈問3〉の[4],[5]は知識があれば即答できるもの。全体的に計算量は少なく,[1]は項目反応関数に代入するだけ,[3]は偏微分するだけである。[2]も困難度パラメータの値から答えはすぐにわかるが,その判断理由を説明しようとしたら迷うかもしれない。〈問4〉の[2]〜[4]は直接効果や間接効果,構造方程式に関するもので,与えられたパス図とパラメータの推定値を使って,それぞれ10秒程度で答えられる。[1]と[5]はそれぞれ標準解と同値モデルについての記述問題であるが,基本的であり満点をとりやすい。〈問5〉の[1]は与えられた度数について適合度検定統計量を計算する問題で,2級レベル。[2]は[1]の設定を引き継いでいることが問題に示されていないので,解答不能である(問題の不備)。[3]は適合度検定統計量が近似的にカイ2乗分布にしたがう理由を述べる問題で,どこまで説明すべきか悩ましい。[4]はラグランジュの未定乗数法を使って最尤推定値を求めるもので,素直に計算すれば解けるものの,[4-2]の答え方には迷う余地があり,完答へのハードルは高い。

2018年

〈問1〉2×2分割表(★)
〈問2〉判別分析(★★)
〈問3〉パス解析(★★)
〈問4〉クラスター分析(★)
〈問5〉混合正規分布(★★★★)
【総評】〈問1〉で問われているのは,超幾何分布,オッズ比,ファイ係数,イェーツの補正,フィッシャーの正確検定などであり,何のひねりもないので,準1級の知識があれば苦労せずに満点がとれる。逆に言うと,これらの知識に穴がある場合には避けなければならない問題である。〈問2〉の[2]ではユークリッド平方距離から判別境界線を求め,[3]ではマハラノビス距離を用いた判別を問われているが,計算量も少なく,記述も難しくはない。[4]は誤判別率に関する記述問題で,難しくはないものの,どのように解答すべきか悩むかもしれない。〈問3〉の[1],[2]はパス図や擬相関の知識があれば易しい。[3],[4]では,構造方程式をつくり,その両辺に変数をかけて期待値を計算する典型的な流れであり,解き慣れていれば迷う余地はない。[5]では,パス係数が1つ与えられているので,それをもとにすべてのパス係数が求めやすくなっていて,前問ができていれば難なく総合効果を求められる。しかし,逆に言えば,[3]や[4]でつまずくと,その後の問題は解けなくなるという難しさはある。〈問4〉は階層的クラスター分析に関する基本的な問題。全体的に準1級のレベルであり,鎖効果も知っていれば満点をとるのは難しくない。〈問5〉の[1],[2]は混合正規分布の確率密度関数のグラフがふた山になるための条件を考える問題。[1]は混合分布の期待値と分散を確率密度関数を使って計算するもので,方針は明確だが,1問目にしては計算が多め。[2]は平均と分散の異なる2つのグループを合併したときの平均と分散を計算するもので,特に分散の計算は勘違いしやすいので注意が必要。[3]は混合分布の確率密度関数を2回微分するだけなので,これも方針は明確だが計算量が多い。[4]はふた山になるための条件を式で表すもので,[3]で2階の導関数を求めさせている意図を読み取ることができれば解答を簡単にまとめることができるが,全体的に計算量が多く,完答のハードルは高い。

2017年

〈問1〉探索的因子分析(★)
〈問2〉一元配置分散分析(★★)
〈問3〉2変量正規分布と条件付き期待値(★★)
〈問4〉層化抽出法(★★★)
〈問5〉二項分布と正規分布(★★★)
【総評】〈問1〉の[1],[2]は数秒で即答できる。[3],[4]は因子間の相関を考慮に入れた因子負荷量の計算をともなうが,せいぜい2次方程式くらいなので,5分もかからない。[5]は因子軸の回転について論じる標準的な記述問題であり,「準1級のワークブックの内容+プロマックス回転」くらいの知識で容易に完答できる。〈問2〉の[1]〜[4]は2級の知識だけで解ける基本問題。[5]は一般的な分散分析とは対立仮説が異なり,3群のうちの2つをプールして2標本t検定に持ち込む。経験がないと戸惑うかもしれないが,2級の知識を応用すれば解ける。〈問3〉の[1],[2]は公式を運用することで解くことができ,[3]も準1級のPBTで出題されたことがある標準的なもの。[4]は[3]が解けると即座に解答できる易問なので,ここまでは計算ミスに気をつけて確実に得点したい。[5]は,期待値を比べて論述する問題で,難しいわけではないが,問われていることを適切に捉えて解答する必要がある。〈問4〉は復元抽出なので標本は独立に同一の分布にしたがうことに注意する。[1],[2]は問題で与えられた推定量を用いて期待値と分散を計算するだけだが,[3]は平方和の分解を用いて[1]と[2]の結果を比較するため,知識として知っていないと難しいだろう。[4]は,ここまでの結果を踏まえて2つの標本抽出案を比べるものであり,2問目までができていれば分散の比較を行うのは易しいが,それ以外に何を記述すべきかは悩ましい。全体的に途中でつまずくと後の設問にひびく構成であり,完答の難易度は高い。〈問5〉の[1],[2]は2つのグループに学生を割り付ける2種類の方法について,それぞれ確率,期待値,分散を求めるもの。[1]は二項分布なので公式によって簡単に解けるが,[2]は地道に確率を計算する必要があり,確率をミスすれば期待値も分散も答えが合わなくなってしまうので気をつけたい。これらの具体的な計算を踏まえ,[3]では,2種類の方法の期待値,分散の大小関係を一般的に考察・記述するもので,特に分散の大小関係をどう説明するのかは悩ましい。[4],[5]は一転して信頼区間に関するもので,基本的な知識と少しの計算力があれば解ける。

2016年

〈問1〉探索的因子分析(★)
〈問2〉切断された正規分布と条件付き期待値(★★)
〈問3〉2段抽出法(★★★)
〈問4〉確認的因子分析(★★)
〈問5〉2群の母平均の推定と検定(★★★)
【総評】〈問1〉は因子間の相関を考慮に入れて計算することさえできれば全体的に易しく,[1]〜[3]は数秒で解答できる。[4]の直交回転と斜交回転の違いも,模範解答を見る限り,ごく簡単なことが書けていれば良さそうなので,1〜2分もあれば完答できる。〈問2〉の[1]は,2年間の比較でコースごとの得点の平均はどちらも上がっているのに,全体の得点の平均は下がっていることについての論述であり,差がつきやすい。[2]は正規分布表を読み取るだけで易しいが,[3]は500点以上の得点の平均と500点未満の得点の平均をそれぞれ求めるために,切断された正規分布の期待値を計算する。準1級の知識で十分に解け,計算量も多くはないが,標準正規分布を利用して手際よく処理できることが大切。〈問3〉の[1],[2]で示すべき分散の式は一見して条件付き分散の公式そのものなので,この式を使い慣れているかどうかがポイント。[3],[4]は前問の結果を利用するが,[1],[2]が解けていなくても結果はわかっているので,[3],[4]だけに解答することも可能。〈問4〉の[1]〜[3]は基本的な知識があれば即答できる。[4]は分散共分散行列の空欄をうめるもので,分散と共分散の計算方法がわかっていれば1分程度で答えられる。[5]は,モデルの自由度と識別性に関する記述問題で,モデルの自由度の計算原理がわかっていないと答えられないため,差がつきやすい。〈問5〉の[1]は1群の母平均の信頼区間をt分布を使って求めるもので,[2]は等分散を仮定したときの2群の母平均の差の検定と,母平均の差の信頼区間を求めるものであり,ここまでは2級の知識で解答できる。[3]は各群の母平均の信頼区間の重なり具合と,母平均の差の検定の有意性の関係を数式で説明する問題であり,これも2級の知識で解けるものの,完答するには数学的基礎力を要する。

2015年

〈問1〉項目反応理論(★★)
〈問2〉主成分分析と因子分析(★★★)
〈問3〉多次元尺度法(★★★★)
〈問4〉ベイズ判別(★★★)
〈問5〉二元配置分散分析(★★)
【総評】〈問1〉の[1]〜[3]では,1母数のプロビットモデルとロジスティックモデルを使って尤度関数をつくり,能力母数θの最尤推定値を数式と数値で表す。基本的だが標準正規分布の累積分布関数の微分で戸惑うことのないようにしたい。[4]では項目ごとの正解・不正解を表す文字xjを自分でおいて尤度関数をつくれるかどうかが勝負の分かれ目。〈問2〉の[1]は主成分分析がどんな関数の最大化に基づくものであるかを答えるもの,[2]は直交モデルの因子分析の仮定を述べるもの,そして[4]は独自因子の分散が意味することを説明するものであり,両分野を普通に勉強してきた人ならば迷わずに答えられるだろう。[3]は因子分析のパラメータの次元を答えるもので,直交回転による不定性を考慮する必要があるため,知識として知っていないと難しく,点差がつきやすい。〈問3〉の[1]は対象間のユークリッド距離を式で表すもの,[4]は解の直交回転による不定性に関するもので易しい。[2]は距離の2乗を成分とする行列の二重対角化の結果が座標行列Xとその転置行列の積に一致することを示すもの,[3]は解Xの具体的な形を示すもので,多次元尺度法の理論の数式を追うだけでなく,自分で再構成した経験がないと太刀打ちできないだろう。〈問4〉の[1]では対数確率比に正規分布の確率密度関数を代入して判別式を求め,[2]では[1]の結果を踏まえて誤判別の確率を求めるため,[1]を間違えると[2]も正解できない。[3]と[4]では2変量正規分布を用い,[1],[2]と同じ流れで判別式を構築して誤判別の確率を求めるため,[3]を間違えると,[4]も正解できない。このような小問の構成であることと,[3],[4]でベクトルと行列の計算の習熟度が問われることから,完答の難易度は高め。〈問5〉の[1]〜[4]では,分散分析表の空欄をうめ,交互作用効果を説明し,検定統計量がしたがう確率分布を答え,平方和の分解を式で答えるという流れであり,準1級の分散分析の理解を問うのに非常に良い問題。逆に,1級の出題としては易しめであり,[5]で誤差分散の最尤推定値と不偏推定値の関係を答えられるかどうかで差がつくと思われる。

2014年

〈問1〉切断された正規分布と条件付き期待値・分散(★★★)
〈問2〉単回帰分析(★★)
〈問3〉ロジスティック回帰分析(★★)
〈問4〉クラスター分析(★)
〈問5〉2×2分割表(★★★★)
【総評】〈問1〉の[1],[2]は2変量正規分布の線形変換,無相関と独立の同値性であり,準1級レベルの内容。[3]は正規分布表を使う計算であり,2級レベル。[4]では切断された正規分布の期待値,分散を計算するが,正規分布の上側25%の分散を求めるときの計算量がやや多いので,日頃から訓練しておきたい。〈問2〉は,10点満点の試験について,得点が上位の群と下位の群に分けてダミー変数を用いた回帰分析を適用するもの。平均の関係式を証明する[2]は易しいが,小問ごとの特徴を記述する[1]は何を書くべきか悩ましい。[3]は相関係数と各小問の標準偏差,上位の群の平均,下位の群の平均の間に成り立つ式を自分で見つける必要があるが,相関係数を計算してみれば関係式はすぐに見える。〈問3〉ではロジットモデルをpについて解き,グラフを描いて単回帰モデルとの違いを記述する[1]と,ロジットモデルの係数と対数オッズの関係を問う[2]は標準的な内容で得点しやすい。[3]はモデル選択についての記述問題であり,AICやP値の数値だけでなく,変数どうしの相関や変数の意味合いも考慮する必要があるため,やや書きにくい。〈問4〉の[1],[2]はデンドログラムの作成に関するもので,どちらも基本的であるがゆえにケアレスミスをしないように注意したい。[3]は2つのデンドログラムを比べて,最短距離法における鎖効果を中心に記述させるものであり,この分野をきちんと勉強したことのある人にとっては易しい。〈問5〉は,サンプリングの仕方による確率分布の違いがテーマであり,[2]は行和を固定したときの独立性の検定の解釈を説明するもので,しっかりとした理解がないと厳しい。[3]は3種類のサンプリング計画ごとの確率分布を与えられたパラメータを使って表すもので,テクニカルな式変形と計算量の多さからすれば,初見で解くのは困難だと思われる。[4]は,行和と列和を固定したときの超幾何分布に基づく検定と独立性の検定の関係を述べるもので,やはり経験がないと難しいだろう。

2013年

〈問1〉項目反応理論(★★★)
〈問2〉3変量正規分布と乱数生成(★★)
〈問3〉主成分分析と因子分析(★★★)
〈問4〉分割表と尤度比検定(★★★)
〈問5〉線形回帰モデル(★★★)
【総評】〈問1〉の[1]は,ロジスティックモデルの3つの母数の意味を答えるだけで,[2]も期待値と分散の公式を使うだけのシンプルなものであり,確実に得点したい。[3],[4]は方針に迷うところはないが,求められている計算を正しく捉え,適切に処理できるかどうかには,数学的な習熟度の差が出るだろう。〈問2〉の[1]は共分散が0でないことに注意する必要はあるものの,基本的である。[2]の乱数発生の方法は,多変量正規分布を学習したときに知っておくべき基礎事項である。二項分布を利用する[3]も基本的であり,[2]でつまずいたりしなければ完答しやすい。〈問3〉の[1]は多変量正規分布の線形変換であり,易しい計算問題。[2]の主成分得点と合計点の相関係数の計算は,主成分負荷量の導出などを練習している人なら解けるだろう。[3]から因子分析に話題が変わり,[3]の因子数の決定方法,[4]のバリマックス回転についての記述はいずれも準1級の勉強をきちんとしていれば対応できる。〈問4〉は正方分割表における対称性の検定がテーマで,設問の流れにしたがって尤度比検定統計量を構成する。多項分布に基づく尤度関数とラグランジュ乗数を組み合わせて最尤推定値を求める流れは頻出だが,本問では添字が3つあり,シグマを使った計算が複雑になるので,間違えないように丁寧に計算したい。〈問5〉の[1]は単回帰式と決定係数を計算するもので,単回帰式の公式と決定係数が相関係数の2乗であることがわかっていれば難しくはない。[2]では,単回帰モデルと重回帰モデルを比較するために単回帰モデルの自由度調整済み決定係数を求めるが,決定係数や自由度調整済み決定係数の式の成り立ちを理解して,正しく計算する必要があり,差がつきやすい。[3]は重回帰モデルの解釈を述べる記述問題で,様々な答え方があり,平常点の係数が負になる仕組みを知識として知っていれば妥当な解答が書けると思われる。

最後に,人文科学の頻出分野をまとめておきます。2013〜2024年の人文科学の問1〜4の中で最も多く出題されたのは多変量解析で21大問でした。そのうちの10大問が共分散構造分析に分類できます。また,多変量解析の大問を除いた中で出題が最も多かったのは確率分布で9大問でした。特に,直近の3年間の12大問のうち11大問は多変量解析または確率分布からの出題となっており,このような出題分野の偏りを利用すれば,人文科学には他の統計応用3分野に比べて対策しやすい面があると言っていいでしょう。

統計学を深く学ぶ契機として

本稿を執筆するにあたり,統計応用4分野の過去問を解き直したのですが,2020年に中断をはさんだ後の2021〜2024年は極端な難問(または易しすぎる問題)が影をひそめ,どの分野も大問ごとの難易度差が小さく,実力が得点に反映されやすい出題になってきていると感じました。例えば,前のセクションの人文科学の過去問分析では,近年は難易度が「★★」の出題が多くなっていますよね。同じ傾向は,他の3つの分野についても言えます。このことからは,作問を担当されている先生方の苦労がうかがえます。

このような良質な問題を通して,各専門分野に関して準1級よりも深い内容が問われるので,単なる表面上の知識に留まらない統計学の理解を得る非常に良い機会となるでしょう。4つの分野はそれぞれ内容的に厚みをもっているので,統計応用だけで半年程度の時間をかけてじっくり学習することをオススメしますが,「準1級→人文科学」のパターンならば人文科学の学習は1〜2か月程度ですませることも可能です。これは,人文科学の「厚み」の大部分が準1級範囲と重なっていることによります。本稿を通じて,学びたい分野が見つかり,統計検定1級にチャレンジする人が増えることを期待しています。

コメント

タイトルとURLをコピーしました