独立性の検定【統計検定２級・準１級】

２×２の分割表を中心にして，統計検定２級〜準１級で頻出の独立性の検定を解説していきます。１つ目のポイントは，２×２の分割表における独立性の検定は，母比率の差の検定としても捉えることができ，それらは等価であることです。２つ目のポイントは，２×２の分割表の場合には，検定統計量を素早く正確に計算できる公式が有効であるということです。また，統計検定準１級の問題文に登場したことがあるクラメールの連関係数やイェーツの補正についても解説します。

この記事で前提知識とする知識は，【中学の数学からはじめる統計検定２級講座】の第１回の確率，第12回の母比率の差の検定，第13回のカイ二乗分布の内容になります。これらの内容に不安がある人は，先にそちらの記事を読んでください。

では，はじめていきましょう！

独立性の検定
母比率の差の検定との関係
イェーツの補正
クラメールの連関係数
演習１　２×２の分割表
演習２　クラメールの連関係数
参考図書

独立性の検定

例えば，ある市で市長選挙があり，２人の候補者AとBが立候補しているとましょう。有権者はAかBのいずれか一方に投票します。「AとBの支持率は男女で差があるか」を調べるために，1000人を無作為抽出してアンケートをとり，その結果が次の表のようになったとします。

このような表を分割表またはクロス表と言います。特に，この表は行方向に２つのカテゴリー（男・女），列方向にも２つのカテゴリー（候補者A・候補者B）があるので，２×２の分割表（クロス表）と言います。また，このような調査で実際に得られたデータを観測度数と言います。

では，1000人の回答結果から「どちらの候補を支持するか」の割合は男女で差があると言えるでしょうか。このことを調べる方法の１つは，母比率の差の検定を適用することです。これについては第12回の記事で解説していますが，次のセクションで独立性の検定との関係を改めて説明することにします。

そして，もう１つの方法が，今回の主役であるカイ２乗分布を使った独立性の検定を適用することです。

独立性の検定というのは，次の帰無仮説と対立仮説を設定した検定のことです。

帰無仮説：行と列の因子は独立である
対立仮説：行と列の因子は独立ではない

つまり，独立であることを仮定して検定統計量を計算することで，独立ではないことを示すわけです。

では，上の例で，性別と支持する候補者が独立だと仮定するとどうなるでしょうか。まず，上の分割表で，合計の欄の数以外をすべて消すと次のようになりますよね。

「候補者Aを支持する人」と「候補者Bを支持する人」の人数の比は，男女の合計で，750：250＝３：１になっています。もし，性別と支持する候補者が独立だとすると，男性であろうが女性であろうが「候補者Aを支持する人」と「候補者Bを支持する人」の人数の比は３：１になりますよね。人数の比が３：１になるように空欄部分をうめると次のようになります。

この表の４つのマスの数値のように「行と列の因子は独立である」と仮定したときに各マスに入る数のことを期待度数と言います。期待度数と観測度数のズレが誤差の程度なのか，誤差とは言えないレベルなのかをカイ２乗分布を使って判定します。

では，検定統計量の計算に入る前に期待度数の求め方を振り返っておきましょう。

例えば，上の表の４つのマスのうち，左上のマスに入る450という数を求める式は次のように表すことができます。

左辺では，全度数の1000に男性である割合の「1000分の600」と候補者Aを支持する人の割合の「1000分の750」をかけています。これには，第１回の記事で説明した独立な事象の確率の性質から，「男性でAを支持する確率＝男性である確率×Aを支持する確率」が成り立つことを利用しています。

約分すると右辺のように，１行目の合計と１列目の合計の積を全度数でわったものに等しくなります。つまり，一般的に表現すると，i行目j列目のマスに対応する期待度数は，i行目の合計とj列目の合計の積を全度数でわって求めることができるということです。行の合計や列の合計のことを周辺度数とも言いますので，シンプルに表現すれば「期待度数＝周辺度数の積÷全度数」となります。

では，検定の方法の説明に進みましょう。ここまでの準備を踏まえて，次の問題に解答していきます。

【問題】上記の分割表を用いて，ある市長選挙で支持する候補者と性別は独立か，有意水準５％で検定しなさい。

【解答】期待度数からのズレの大きさを数値化するという意味では，適合度検定と同じですから，計算方法も同じになります。つまり（観測度数ー期待度数）²を期待度数でわったものを合計すれば検定統計量が計算できます。上の２×２の分割表の４つのマスについて，この合計を計算すると次のようになります。

検定統計量の実現値は20ですね。適合度検定と同じように，この統計量は全度数が十分に大きいときに近似的にカイ２乗分布に従いますが，その自由度は２×２の分割表では１になります。この自由度の考え方については後で補足します。20という実現値が自由度１のカイ２乗分布の上側５％点よりも大きければ，有意水準５％で「行と列の因子は独立である」という帰無仮説を棄却することになります。

実際にカイ２乗分布表を使って，自由度１のカイ２乗分布の上側５％点を調べると約3.84であるとわかります。（下の図）

20という実現値は棄却域に入るので，有意水準５％で帰無仮説を棄却し，「行と列の因子は独立ではない」つまり「AとBの支持率には男女差がある」という結論になります。

（解答終わり）

この問題では，検定統計量の実現値が整数の和として計算できたので楽でしたが，ふつうは分割表の数値から計算した（観測度数ー期待度数）²を期待度数でわった値はわりきれないので，計算が煩雑になるだけではなく，四捨五入したときの丸め誤差の影響で正しい検定統計量の値からズレてしまうこともあります。これを防ぐために，２×２の分割表で使える公式を後で紹介します。

では，ここで独立性の検定について一般的にまとめておきます。

まずは，自由度の覚え方です。

上の３×４の分割表で，周辺度数がはじめから与えられているものとしましょう。このとき，枠で囲んだ左上の６つのマスに入る度数を決めてしまえば，残りのマスに入る数は周辺度数との関係で自動的に決まります。つまり，３×４の分割表ならば，自由に決められるのは２×３の部分であり，k×ℓの分割表ならば，自由に決められるのは(kー１)×(ℓー１)の部分なのです。これが独立性の検定の自由度です。

では，一般的な場合の検定統計量の式を書いておきましょう。k×ℓの分割表で，観測度数を次のようにおきます。

また，周辺度数を次のようにおきます。

このとき，全度数をnとして，検定統計量は次のように表せます。

この確率変数は，nが十分に大きいときに近似的に自由度(kー１)×(ℓー１)のカイ２乗分布に従うので，このことを利用して検定を行います。

次のセクションでは，母比率の差の検定と独立性の検定の関係を確認していきましょう。

母比率の差の検定との関係

前のセクションでは「行と列の因子は独立か」と考えましたが，同じ分割表について「どちらの候補を支持するかの割合は男女で差があるか」と考えても同じことですよね。

もし，独立性の検定では有意（独立ではない）になり，母比率の差の検定では有意でない（男女で差がない＝独立）という結果になってしまったら困りますよね。

でも，その２つの結果は一致するので大丈夫なんです。母比率の差の検定を適用して，そのことを確認していきます。

次の２×２の分割表は，前のセクションで取り上げたようなアンケート結果だと考えましょう。

男性の母集団と女性の母集団の２つを考えたときに「候補者Aを支持する」という人の割合に差があるかどうかを調べます。男性で「候補者Aを支持する」と答えた人の標本比率はa÷(a＋b)です。女性で「候補者Aを支持する」と答えた人の標本比率はc÷(c＋d)です。プールした比率は(a＋c)÷(a＋b＋c＋d)なので，母比率の差の推定量の標準誤差は次のように計算できます。

これを使うと，母比率の差の検定の検定統計量の２乗は次のようになります。

では，同じ２×２の分割表に，独立性の検定を適用してみましょう。４つのマスのうちの左上のマスに対応する期待度数は，周辺度数の積を全度数でわって次のように表せますよね。

よって，独立性の検定の検定統計量の計算式のうち，左上のマスの数に対応する部分は次のように計算できます。

同じように，独立性の検定の検定統計量の計算式のうち，右上のマスの数に対応する部分は次のように計算できます。

同じように，独立性の検定の検定統計量の計算式のうち，左下のマスの数に対応する部分は次のように計算できます。

同じように，独立性の検定の検定統計量の計算式のうち，右下のマスの数に対応する部分は次のように計算できます。

これらをまとめると，次のようになります。

最後の式は，すでに計算してある母比率の差の検定の検定統計量の２乗と一致しています。

２×２の分割表についての独立性の検定の検定統計量は自由度１のカイ２乗分布に，母比率の差の検定の検定統計量は標準正規分布にそれぞれ近似的に従い，標準正規分布に従う確率変数の２乗は自由度１のカイ２乗分布に従うことから，両者の結果は完全に一致します。

さて，ここまでの計算は大変でしたが，大事なことがわかりましたね。それは，２×２の分割表についての独立性の検定の検定統計量は次の式で計算できるということです。

一見，ややこしそうに見える式ですが，adーbcの２乗に全度数をかけて４つの周辺度数でわっているだけなので，それほど苦労せずに覚えられるはずです。この式を使うことで，前のセクションで立式した検定統計量の実現値は，次のように計算できます。

この場合には，どちらで計算してもあまり差が感じられませんが，例えば，後の演習１をこの公式を使わずに計算してもらえれば，この公式のありがたみがわかるかもしれません。

イェーツの補正

分割表に１桁の度数があるような場合，その度数が１ズレただけで，カイ２乗統計量の値が大きく変わってしまうことがあります。そこで第一種の過誤を犯す確率を低くするように，カイ２乗統計量の値を低めに補正するのがイェーツの補正です。

ちなみに，イェーツとは統計学者のFrank Yatesの名前に由来しており，イェイツという呼び方のほうが英語の発音により近いのですが，統計検定準１級の問題文では「イエーツ」と書かれているため，本稿ではイェーツと表記しておきます。

例えば，２×２の分割表で，１行目２列目のbの値が１桁の自然数で，表の中の度数で最も小さい数だとしましょう。このときに，次の表のようにbをb＋0.5におきかえます。

周辺度数を変えないように，bを大きくした分だけ，a，dを小さくし，cは大きくなります。２×２の分割表の公式に代入して計算すると，次のようになります。

逆に，a，dを0.5だけ大きくして，b，cを0.5だけ小さくする場合もありますよね。その場合も含めてシンプルにまとめると，イェーツの補正を施した２×２の分割表の検定統計量は，a＋b＋c＋d＝nとして次の式になります。

分子の値が小さくなっているので，検定統計量の値が小さくなり，棄却されにくくなっています。したがって，第一種の過誤を犯しにくくなっているのですが，一方で，第二種の過誤は犯しやすくなっています。

補正を施さないと検定統計量は大きめの値になってしまうので，何らかの補正は必要であるものの，イェーツの補正を施すと補正しすぎる傾向があるので，実際にこの補正を行うかどうかは慎重な検討が必要になります。

クラメールの連関係数

すでに紹介したように，k行ℓ列の分割表における独立性の検定の検定統計量は次の式でした。

この和の各項は，分子が２乗されているため，全度数nが大きくなるだけで統計量の値は大きくなります。例えば，最初に例に挙げた２×２の分割表で，度数をすべて10倍すると次のようになりますよね。

この分割表でカイ２乗統計量を計算すると，各項の分子はもとの100倍，分母はもとの10倍になるので，全体として値が10倍になります。表内の数の比率は変わっていないので，行の因子と列の因子の関連性の度合いは変わっていないはずですが，全度数が大きくなったことで統計量の実現値が大きくなり，棄却されやすくなってしまいます。

そこで，行と列の関連性の度合いを知るには，カイ２乗統計量を標本の大きさでわるような操作が必要だと考えられます。それこそがクラメールの連関係数であり，次の式で表されます。

上の式の右辺のルートの中の分子はカイ２乗統計量の値，分母のnは標本の大きさ，kは分割表の行数と列数のうち，大きくないほうの数を表しています。カイ２乗統計量の最大値はn(kー１)なので，カイ２乗統計量をそれでわることで０以上１以下の値をとるようになります。

ちなみに，クラメールとは，数学者・統計学者のHarald Cramerの名前に由来しています。

では，クラメールの連関係数が０以上１以下の値をとることを確認してみましょう。

まず，カイ２乗統計量の値は，観測度数が期待度数とピッタリ一致しているときが最小で，その値は０です。このとき，クラメールの連関係数Vの値も最小の０をとります。このときは，行の因子と列の因子に関連性はない（独立）と考えられます。

では，２×２の分割表で，カイ２乗統計量の値が最も大きくなる場合を考えてみましょう。それは，次のように完全な偏りがある場合です。

この場合の期待度数は，次のようになりますよね。

よって，この場合のカイ２乗統計量を計算すると，次のようになります。

２×２の分割表では，行数と列数のうちの大きくないほうの数は２なので，次のようにクラメールの連関係数は最大値の１をとります。

一般的なk行ℓ列（k≦ℓ）の分割表でも，同じように計算することで，カイ２乗統計量の最大値がn（k−１）となることが確認できますので，クラメールの連関係数の最大値は１になるわけです。このときは，行の因子と列の因子に関連性はある（独立ではない）と考えられます。クラメールの連関係数の値が１に近いほど，関連性がある（可能性が高い）と考えることができます。

なお，一般の分割表の場合のクラメールの連関係数の最大値が１であることの証明を確認したい人は本稿下部の参考図書②を参照してください。

演習１　２×２の分割表

【問題】次の分割表は，あるプロ野球チームが5年間に行った702試合における勝敗を本拠地での試合（ホーム）と他球団の本拠地での試合（ビジター）に分けてまとめたものである。

「このチームの勝敗とホームゲームかどうかは独立である」という帰無仮説を有意水準１％で検定しなさい。

【解答】２×２の分割表なので，公式を使いましょう。代入して計算すると，次のようになります。

２×２の分割表では統計量が従うカイ２乗分布の自由度は，(2ー1)(2ー1)＝１です。カイ２乗分布表から，自由度１のカイ２乗分布の上側１％点は約6.63とわかるので，5.48＜6.63より，この値は棄却域には入らず，帰無仮説を受容します。有意水準１％で独立ではない（関連がある）とは言えないという結論になります。

（解答終わり）