一元配置分散分析【中学の数学からはじめる統計検定２級講座第16回】

「分散分析って何？　分散を分析するの？」「分散分析表の結果は読み取れるけれど，意味はよくわからない」なんて思いますよね。エクセルや統計ソフトを使えば，意味がわからなくても分散分析は実行できます。しかし，分散分析がどういう仮定のもとで成り立っているのかがわからなければ，結果を用いて正しい判断をすることは困難でしょう。また，近年の統計検定PBTでは，分散分析表を読み取るだけでなく，検定統計量の立式などの途中のプロセスを問うような問題も増えてきています。

そこで，この記事では，分散分析の初学者の人に向けて，分散分析のイメージと仕組みがわかるように，例題を解きながら，わかりやすく説明していきます。

この記事で前提とする知識は，第５回の記事で説明したΣΣ（シグマが２つ続く）の内容，第12回の母比率の差の検定の記事で説明したP値の内容，第13回の記事で説明したカイ二乗分布の性質，第14回の記事で説明したF分布の性質，第15回の記事で説明した母平均の差の検定の概念になりますので，これらの内容に不安がある人は，先にそちらの記事を読んでください。

では，はじめていきましょう！

一元配置分散分析【中学の数学からはじめる統計検定２級講座第16回】

分散分析とは
分散分析のイメージ
分散分析の定式化
分散分析表
参考図書
演習１〜分散分析表の穴うめ〜
演習２〜２水準の一元配置分散分析とt検定〜
演習３〜一元配置分散分析（Rによる出力）〜

分散分析とは

分散分析は，分散を使って，２群以上の母平均の差を検定する分析手法のことです。分散を分析するわけではありませんので，注意してください。２群の場合には，第15回で解説したt検定によって母平均の差の検定ができますので，３群以上の場合に使われることが多いです。また，分散分析は英語で，”analysis of variance”と呼ばれますので，これを略して「ANOVA（アノバ）」と呼ぶこともあります。

母平均の差の検定なので，帰無仮説は「すべての群の母平均が等しい」というものです。対立仮説は「すべての群の母平均が等しい」の否定なので，「少なくとも１つの群の母平均の値が異なる」となります。

さて，分散分析とはどういうものか，具体的に見ていきましょう。ここでは，例として，あるコンビニエンスストアの各店舗で，商品Aを陳列棚の上から何段目に並べるかによって，売れる個数に差があるかどうかを調べたいとしましょう。無作為に９店舗を選び，３店舗は１段目に，別の３店舗は２段目に，また別の３店舗は３段目に商品Aを並べたとき，１日の販売個数のデータが次の表のようになったとします。

ここで，分散分析で重要な２つの言葉を紹介します。この例では，売れる個数に影響を与える可能性のあるものとして，「陳列棚の何段目に並べるか」に注目しています。このように，観測データ（この場合ならば，売れる個数）に影響を与える可能性のあるものを要因と言います。これと同じ意味で因子という言葉が使われることがありますが，この言葉は統計検定２級の問題文で使われていないので，この記事では使用しないことにします。

上の例では，１つの要因が，「１段目」，「２段目」，「３段目」という３つの場合に分かれています。このような要因がとりうる一つひとつの条件のこと（要因を独立変数とみなしたときの値に相当するもの）を水準と言います。この例では，３つの水準があり，３水準＝３群の母平均の差の検定ということになります。各水準の標本の大きさは，同じでも異なっていても，どちらでもかまいません。

そして，タイトルにある一元配置分散分析というのは，要因が１つの分散分析のことを指します。二元配置分散分析と比べてみると，その意味がはっきりとわかるでしょう。次の表を見てください。

これは，「陳列棚の何段目に並べるか」という要因に加えて，「その日の天気」というもう１つの要因を追加したものです。このように，要因が２つの分散分析を二元配置分散分析と言いますが，統計検定２級では出題範囲外なので，この記事では扱いません。

さて，分散分析では前提条件として次の３つを仮定します。

観測値は独立であること（無作為標本）
各水準内でデータはほぼ正規分布に従う
すべての水準で母分散がほぼ等しい

つまり，第15回で解説した等分散を仮定できる場合の２標本t検定と同等な仮定をおくことになります。

このセクションの最後として，分散分析の限界についてコメントしておきます。水準の数をm個とすると，分散分析によってわかるのは，これらのm個の水準のどこかに母平均が異なるものがある（可能性が高い）というだけであり，母平均が異なるのはどの水準なのかについてはわかりません。これを調べる方法を多重比較と言いますが，統計検定２級の範囲を超えるので，この記事では扱いません。

分散分析のイメージ

式を使った説明に入る前に，分散分析のイメージをつかんでおきましょう。次の図は，青と赤の２つの水準（正規母集団）について，無作為抽出された標本を，それぞれ青と赤の点で表したものです。背後にある母集団の平均（赤と青の縦線）がわからない状態で，標本だけを観察して母平均に違いがあるのかを判断したい状況を考えます。

この図の場合には，それぞれの母集団から抽出された標本の値だけを見ても，母平均に差がありそうだとわかりますね。このように，「水準どうしのバラツキ」のほうが「標本のバラツキ」よりも明確に大きいときには，標本だけを見て，母平均に差があることを確信できるわけです。

一方で，次の図はどうでしょうか。

この図の場合には，２つの母集団の平均の差が小さく，標本だけを観察しても，母平均に差があるかどうかがわかりにくいですよね。つまり，「水準どうしのバラツキ」に比べて「標本のバラツキ」が大きいときには，標本だけを見て，母平均に差があるかどうかの結論を出すことは難しいわけです。

では，母平均に差があるという確信が持てるのは，「水準どうしのバラツキ」が「標本のバラツキ」に対してどれくらい大きいときでしょうか。この疑問に答えるため，次のセクションでは「水準どうしのバラツキ」と「標本のバラツキ」をそれぞれ式で表して，これらの大きさの比較がF分布につながっていくことを確認していきます。

分散分析の定式化

では，一元配置分散分析を式を使って一般的に捉えていきます。

１つの要因について，m個の水準があるものとします。標本の大きさを水準ごとに，n₁，n₂，…，n_m（全部で，Σn_j＝Nとする）とし，各水準の母平均を，μ₁，μ₂，…，μ_mとすると，帰無仮説は次の式で表せますね。

次に，j（j＝１，…，m）番目の水準の標本を次のように表します。

また，標本全体の平均とj（j＝１，…，m）番目の水準に属する標本の平均を次のように表します。

これらの記号を使って，すべての標本と標本全体の平均との偏差平方和は次のように表すことができます。

これを総平方和とか，全平方和と呼びます。この記事では後者で呼称することにします。ちなみに，この全平方和を標本の大きさでわったものが分散ですよね。

この全平方和が水準間のばらつきと標本誤差のばらつきに分解できるという事実が，分散分析の根幹となります。そこで，全平方和を次のように変形します。

下から２行目の第２項が０になるのがポイントで，すべてのjについて次の式が成り立つことを使っています。

上の式変形によって，全平方和が最終的に２つの平方和で表されましたね。このうちの第１項が残差平方和で，次の式で表されます。

各水準内における標本と水準内平均との偏差平方和をすべての水準について加えたものです。

また，上の変形後の第２項が水準間平方和であり，次の式で表されます。

水準内平均と全体の平均の偏差平方和ですが，それぞれの平方を各水準の標本の大きさの数（＝n_j）だけ加えることに注意してください。

さて，大事なのは，これらを使うと，よく知られた確率分布に従う確率変数がつくれるということです。

そのことを確認するために，母分散をσ²として，３種類の平方和を母分散σ²でわってみましょう。帰無仮説を仮定すると，x_ijは１つの正規母集団からの大きさN（＝Σn_j）の無作為標本であるとみなせるので，第13回の記事で学習したことから，全平方和を母分散でわってできる次の確率変数は自由度Nー１のカイ２乗分布に従います。

次に，残差平方和を母分散でわってできる次の確率変数もカイ２乗分布に従いますが，その自由度はどうなるでしょうか。

この式の一部である次の部分は，j番目の水準に対応していて，これは自由度n_jー１のカイ２乗分布に従いますね。

カイ２乗分布に従う独立な確率変数の和は，自由度がそれぞれの自由度の和に等しいカイ２乗分布に従う性質がありましたから，次のように，n_jー１をjについて和をとって，残差平方和を母分散でわってできる確率変数の自由度はNーmになります。

また，水準間平方和を母分散でわってできる確率変数は，次のような変形によって，帰無仮説のもとで自由度mー１のカイ２乗分布に従うことがわかります。

よって，帰無仮説を仮定するとき，次の等式の３つの項はそれぞれカイ２乗分布に従っていて，各辺の自由度の合計はNー１で等しくなっています。

したがって，次の確率変数は分子が自由度mー１のカイ２乗分布に従い，分母が自由度Nーmのカイ２乗分布に従っています。

分母と分子にσ²をかけた後，分母と分子をそれぞれカイ２乗分布の自由度でわってできる次の確率変数は，第14回の記事で学んだことから，F(mー１，Nーm)に従います。

上の分数の分母と分子にある「平方和を自由度でわったもの」を平均平方と言います。分子は水準間平均平方，分母は残差平均平方です。残差のばらつきよりも水準間のばらつきのほうが大きいだろうという予想のもとに対立仮説を設定しているので，この確率変数は１よりも大きい値をとることが期待されます。したがって，この確率変数が検定量（検定統計量）であり，F分布のグラフの右側の裾を使って，右片側検定を行います。

大事なことをもう一度繰り返しておくと，水準間平均平方を残差平均平方でわってできる確率変数は，第１自由度が「水準の数ー１」，第２自由度が「すべての水準の標本の大きさの合計ー水準の数」のF分布に従います。

次のセクションでは，最初に挙げた例を使って，具体的に計算していきましょう。

分散分析表

分散分析の結果は，次のような分散分析表に表すことが多いです。

この表の左から順に計算していきます。

統計検定２級では，平方和は問題で与えられることが多いのですが，はじめに，簡単な数値例を使って平方和を計算するところからやっていきましょう。

【問題】あるコンビニエンスストアチェーンの店舗で，商品Aを陳列棚の上から１段目，２段目，３段目のどこに並べるかによって，１日に売れる個数に差があるかどうかを調べるため，無作為に選んだ９店舗で１日に売れた個数をまとめたところ次の表のようになった。

正規性と等分散性を仮定し，上から何段目に並べたかを要因とする一元配置分散分析を行った。１段目，２段目，３段目にそれぞれ並べたときの１日に売れる個数の母平均をμ₁，μ₂，μ₃，帰無仮説をμ₁＝μ₂＝μ₃，対立仮説を「μ₁，μ₂，μ₃のうち少なくとも１つは異なる」として，有意水準５％で検定しなさい。必要ならば，上側５％点を示した次のF分布表（いちばん上の行が第１自由度，いちばん左の列が第２自由度を表している）を用いなさい。

【解答】１要因３水準の分散分析ですね。まず，水準内平均をそれぞれ求めましょう。

売れた個数の平均は，１段目が，（15＋21＋18）÷３＝18(個)，２段目が，（18＋24＋21）÷３＝21(個)，３段目が，（15＋16＋14）÷３＝15(個)になります。

全体の平均は，（18＋21＋15）÷３＝18(個)なので，水準間平方和は次のように計算できます。

残差平方和は次のように計算できます。

次に，平均平方を計算します。水準間平方和を母分散でわってできる確率変数のカイ２乗分布としての自由度は，水準の数の３より１小さい２だから，水準間の平均平方は，54÷2＝27

残差平方和を母分散でわってできる確率変数のカイ２乗分布としての自由度は，標本の大きさの９より水準の数の３だけ小さい６だから，残差の平均平方は，38÷6≒6.33

F値は，27÷6.33≒4.26となります。ここまでを分散分析表にまとめると，次のようになります。

さて，問題の帰無仮説の検定に進みます。２つの自由度から，F(２,６)の上側５％点とF値の4.26を比べればよいことになります。F分布表から，F(２,６)の上側５％点は約5.14なので，4.26＜5.14より，この値は棄却域には入らないことになります。よって，帰無仮説を受容し，母平均に差があるとは言えないという結論になります。

（解答終わり）

さて，統計検定２級では，実際のデータをもとに出題されることが多く，平方和から計算することは事実上不可能なので，次のような出題パターンになります。

・平方和が与えられて，自由度以降を計算させる

・分散分析表全体が与えられて，読み取って検定結果等を答える

では最後に，このタイプの実戦的な問題を解いておきましょう。

【問題】みかんを生産する７つの地域から，それぞれ無作為に抽出された18個のみかん（合計126個）を使って，１個あたりのカリウムの含有量（単位：mg）に差があるかどうかを調べた。正規性と等分散性を仮定し，地域を要因とする一元配置分散分析を行ったところ，次の結果を得た。

（１）分散分析表の空欄をうめなさい。ただし，ウ，エ，オにあてはまる数は小数第２位まで求めなさい。

（２）地域ごとのカリウムの含有量の母平均をμ_i（i＝１,…,7）とする。帰無仮説を「μ_iはすべて等しい」，対立仮説を「μ_iのうち少なくとも１つが異なる」として，有意水準５％で検定しなさい。必要ならば，上のF分布表を用いなさい。

【解答】

（１）アは，「水準間」の自由度なので，(水準の数ー１)で求められます。地域を要因として考えているので，７水準だから，自由度は，７ー１＝６

イは，「残差」の自由度なので，(すべての水準の標本の大きさの合計ー水準の数)で求められます。データの大きさの合計は126個なので，水準の数の７をひくと，自由度は，126ー７＝119

ウにあてはまる数は，水準間平方和を自由度でわって，377.76÷６＝62.96

エにあてはまる数は，残差平方和を自由度でわって，2710.78÷119≒22.78

オにあてはまる数は，水準間平均平方を残差平均平方でわって，62.96÷22.78≒2.76

よって，答えは，ア＝６，イ＝119，ウ＝62.96，エ＝22.78，オ＝2.76です。

（２）（１）の結果から，F値を求めるための確率変数はF(６,119)に従います。上のF分布表にはF(６,119)の上側５％点は記載されていませんが，F(６,120)の上側５％点が2.175であることが示されていますので，ほぼ等しい値であると考えられます。なお，F(６,40)の上側５％点が2.336であり，F(６,119)の上側５％点はそれより小さい値であることから考えてもかまいません。いずれにしても，F値の2.76のほうが大きいので，棄却域に落ちます。帰無仮説を棄却し，対立仮説を採択します。つまり，有意水準５％で母平均のうち，少なくとも１つが異なると言えます。

（解答終わり）

一元配置分散分析についての基本的な説明は以上になります。この後は，参考図書の紹介に続けて，さらに理解を深めるための演習問題ですので，余力があればぜひチャレンジしてみてください。

参考図書

本稿を執筆するにあたり，次の書籍を参考にしました。

基本統計学　第５版（宮川公男，有斐閣）
検定量がF分布に従うことを示す式変形，およびその自由度の考え方がしっかりと書かれています。

基本統計学[第５版]

演習１〜分散分析表の穴うめ〜

【問題】次の表は，ある魚の養殖場で，４種類の飼料A，B，C，Dのうち１種類だけを与えて３年間育てた後の体長（単位：cm）を調べ，飼料の種類別にまとめた要約統計量である。

飼料によって３年後の体長に差があると言えるかどうかを考察したい。正規性と等分散性を仮定し，飼料の種類を要因とする一元配置分散分析を行ったところ，次の分散分析表を得た。

（１）分散分析表の空欄をうめなさい。ただし，ウ，エ，オにあてはまる数は小数第１位まで求めなさい。

（２）飼料ごとの３年後の体長の母平均をμ_i（i＝１，２，３，４）とする。帰無仮説を「μ_iはすべて等しい」，「対立仮説をμ_iのうち少なくとも１つが異なる」として，有意水準５％で検定しなさい。必要ならば，上のF分布表を用いなさい。

【解答】

（１）アには，水準間平方和を母分散でわってできる確率変数のカイ２乗分布としての自由度があてはまります。飼料を要因として考えているので，４水準になりますから，自由度は，４ー１＝３

イには，残差平方和を母分散でわってできる確率変数のカイ２乗分布としての自由度があてはまります。データの大きさの合計（標本となる魚の数）は，28＋23＋34＋26＝111なので，水準の数の４をひくと，自由度は，111ー４＝107

ウにあてはまる数は，水準間平方和を自由度でわって，603.83÷３≒201.3

エにあてはまる数は，残差平方和を自由度でわって，4129.76÷107≒38.6

オにあてはまる数は，水準間平均平方を残差平均平方でわって，201.3÷38.6≒5.2

よって，答えは，ア＝３，イ＝107，ウ＝201.3，エ＝38.6，オ＝5.2です。

（２）（１）の結果から，F値を求めるための確率変数はF(３,107)に従います。上のF分布表にはF(３,107)の上側５％点は記載されていませんが，F(３,120)の上側５％点が2.680，F(３,40)の上側５％点が2.839であることから，F(３,107)の上側５％点はこの間の値であることがわかります。よって，F値の5.2のほうが大きいので，棄却域に落ちます。帰無仮説を棄却し，対立仮説を採択します。つまり，有意水準５％で母平均のうち，少なくとも１つが異なると言えます。

（解答終わり）

演習２〜２水準の一元配置分散分析とt検定〜

【問題】ある自動車メーカーは，小型車Aを使って，晴れの日と雨の日でそれぞれ燃費（燃料１Lあたりの走行可能距離）を測定する実験を行った。晴れの日に５台，雨の日に６台を走らせて測定した結果は次の表（単位：km/L）のようになった。

正規性と等分散性を仮定し，小型車Aの晴れの日と雨の日の燃費について，帰無仮説を「母平均が等しい」，対立仮説を「晴れの日の母平均のほうが雨の日の母平均より大きい」として，有意水準５％で検定しなさい。必要ならば，上のF分布表を用いなさい。

【解答】第15回で学習したt検定を使ってみましょう。片側検定になります。

プールした分散は，次のように計算できます。

これを使うと，検定量（t値）は次のように求めることができます。

５＋６ー２＝９より，自由度９のt分布の上側５％点を調べると，（t分布表は載せてませんが）およそ1.833であることから，棄却域に落ちます。帰無仮説を棄却し，対立仮説を採択します。つまり，有意水準５％で母平均に差があると言えます。

（別解）

次に，分散分析を使って，同じ仮説を検定します。まず，全体の平均は次のようになります。

これを使うと，水準間平方和は次のように求めることができます。

残差平均平方はt検定のところで計算したプールした分散そのものですから，分散分析表は次のようになります。

F値を求めるための確率変数はF(１,９)に従います。上のF分布表から，F(１,９)の上側５％点はF分布表から5.117だとわかるので，F値の5.67のほうが大きいので，棄却域に落ちます。帰無仮説を棄却し，対立仮説を採択します。つまり，有意水準５％で母平均のうち，少なくとも１つが異なると言えます。

（解答終わり）

【補足】上で求めたt値の2.38を２乗すると，F値の5.67に（四捨五入の誤差を除いて）等しくなります。したがって，どちらで計算しても検定の結果が変わることはありません。

演習３〜一元配置分散分析（Rによる出力）〜

【問題】次の表は，ある企業の月別の売上高（単位：億円）を2016年から2020年までの5年間集計したものである。月ごとの売上高に差があるといえるかどうかを考察したい。

正規性と等分散性を仮定し，このデータを用いて月を変動要因とする一元配置分散分析を行った結果，次の表を得た。

（１）60か月の売上の不偏分散を小数第１位まで求めなさい。

（２）j年i月の売上高をy_ij（i＝1,…,12，j＝2016,…,2020）とし，月ごとの平均をy___i・，年ごとの平均をy___・j，全体の平均をy___・・とする。これらの文字を使って，水準間平均平方と残差平均平方をそれぞれ表しなさい。

【解答】

この英語表記の分散分析表は統計ソフトのRによる出力結果で，2017年の統計検定２級の試験でも同種の分散分析表が出題されています。

DfはDegree of freedomの略で自由度を，Sum SqはSum of Squaresの略で平方和を，Mean SqはMean Squareの略で平均平方を表しています。F valueはF値，PrはP値です。

（１）不偏分散は，全平方和を標本の大きさより１だけ小さい59でわって求めることができます。全平方和＝水準間平方和＋残差平方和より，全平方和は，1582＋2969＝4551

よって，不偏分散は，4551÷59≒77.1

（２）月を変動要因としているので，水準は12個あります。まず，水準間平方和は次のようになります。

５年分のデータがあり，各水準のデータは５個ずつあるので，５をかけるのを忘れないようにしましょう。分散分析表から水準間の自由度は11なので，水準間平均平方は次のようになります。

次に残差平方和は次のようになります。

iについてのΣとjについてのΣは逆でもかまいません。分散分析表から残差の自由度は48なので，残差平均平方は次のようになります。

（解答終わり）

第16回は以上となります。最後までお付き合いいただき，ありがとうございました！
引き続き，第17回以降の記事へ進んでいきましょう！

2023年1月に「統計検定２級公式問題集[CBT対応版]（実務教育出版）」が発売されました！（CBTが何かわからない人はこちら）
CBTは1つの画面で問題と選択肢が完結するシンプルな出題ですが，本書は分野ごとにその形式の問題を並べた構成になっていて，最後に模擬テストがついています。CBT対策の新たな心強い味方ですね！