確率変数と標本平均【中学の数学からはじめる統計検定2級講座第3回】

統計学

「確率変数って,何のこと?」「標本平均って,ただの平均でしょ」なんて声が聞こえてきそうですが,意味を正しく理解できている自信はありますか。今回の最重要テーマは,「標本平均が確率変数であることの理解」です。はじめに,これから統計学を語るための言語の役割を果たす確率変数の概念を解説します。確率変数が1つの確率分布から確率変数が複数である同時確率分布に話を展開し,のちに統計学の本論である推定や検定で重要な役割を果たす標本平均へと進んでいきます。

【第1回】確率の計算の内容は既知であるものとして説明しますので,もし内容に不安のある方は,先にそちらの記事からご覧ください。

では,はじめていきましょう!

確率変数と標本平均【中学の数学からはじめる統計検定2級講座第3回】

離散型の確率変数

確率変数とは,いろいろな値をとる変数であって,​その値と確率がひもづいているもののことです。と言ってもピンとこないでしょうから,この後,具体例を確認しながら理解していきましょう。

確率変数には離散型と呼ばれるものと,連続型と呼ばれるものがあります。このセクションでは離散型の確率変数について,次のセクションでは連続型の確率変数について,それぞれ確認していきましょう。

では,離散型の確率変数を具体的に見ていきます。

確率変数が,整数のように,とびとびの値をとる場合,この確率変数を離散型と呼びます。次の例のように,中2〜高1の確率で習うものは,すべて離散型の確率変数に対応しています。

(例)サイコロの目,コインの表裏,玉に書かれた数等

離散型の確率変数については,変数としてとる値と確率の対応関係を表にすることが可能です。例えば,1が書かれたカード3枚と,2が書かれたカード2枚と,3が書かれたカード1枚の合計6枚のカードが入った袋の中から1枚を取り出す試行を考えてみましょう。

確率変数Xを,取り出したカードに書かれている数とします。一般に,確率変数はXやYなどのアルファベットの大文字で表されるのが通例です。

【第1回】で説明したように,6枚のカードは,書かれている数が同じでも,異なるものと考えます。したがって,2が書かれたカードを取り出す(X=2)確率は,6枚中の2枚ということで,3分の1になります。このことを,次のように表します。

一般的に,確率変数Xについて,Xの値がkであるときの確率を,P(X=k)と表します。

この例で,X=1やX=3の場合も含めて表にまとめると,次のようになります。

この表を見れば,Xがとる値とそのときの確率がはっきりとわかりますよね。このようにXの値と確率がひもづいているので,Xは確率変数です。また,この表のように,Xのすべての値と確率P(X)の対応関係を一覧にしたものを離散型確率変数の確率分布といいます。

連続型の確率変数

連続型の確率変数とは,次の例のように,確率変数のとる値がとびとびではなく,連続的であるということです。

(例)身長や体重,製品の重さ,電池の寿命等

連続的であるということは,とる値が無限にありますので,離散型とは異なり,変数の値と確率の対応関係を表にすることはできません。連続型の確率変数では,変数の値と確率の対応関係を確率密度関数という式で表します。

次の図は,ある集団に属する人の体重の平均が50kgであるとして,その確率密度関数のグラフの一例を示したものです。

グラフとx軸で囲まれる領域を区切ってできる部分の面積が確率に対応します。次の図で,色のついた部分は,体重が51〜51.5kgの範囲に入る確率を表しています。

また,確率の最大値は1でしたから,面積が確率に対応するということは,次の図で色のついた部分のように,全範囲の面積は1に等しくなります。

こういった面積を求めるのに,一般的には積分が必要になりますので,連続型の確率変数の確率を確率密度関数を使って定義するのにも積分を使います。

そこで,高校で積分を習っていない人や,習ったけれども意味がよくわからないという人のために,第6回の記事で,「積分とは何か」を含めて,連続型の確率変数の確率の求め方を解説します。ということで,今回の記事では,連続型の確率変数はここまでにします。

離散型確率変数の同時確率分布

ここまでは,1つの確率変数のとりうる値と確率の対応関係のみを扱ってきましたが,次は,2つ以上の確率変数のとりうる値の組に対して1つの確率が対応する例を扱います。何やら難しそうに聞こえるかもしれませんが,例えば,「サイコロを2回投げるとき,出た目の数の和が8になる確率を求めよ」みたいな問題を解いたことがある人は多いでしょう。1回目に出た目の数をX,2回目に出た目の数をYとすると,確率変数が2つあり,そのとりうる値の組に対して1つの確率が対応していますよね。こういった例について「確率分布を調べてみよう」というのが,このセクションでやりたいことです。では,次の問題で確率分布を考えてみましょう。

【問題】3が書かれたカード3枚と,2が書かれたカード2枚と,1が書かれたカード1枚の合計6枚のカードが入った袋がある。この中から,1枚のカードを取り出した後,カードをもとに戻さずに続けて2枚目のカードを取り出す。1枚目のカードに書かれた数をX,2枚目のカードに書かれた数をYとするとき,XとYの同時確率分布を求めなさい。

【解答】X,Yのとりうる値の組と確率の対応関係を表にまとめると,次のようになります。

(解答終わり)

この表からわかるように,この問題では,XとYの値の組の1つずつに対して,1つの確率が定まっています。確率変数が1つのときの確率分布と同じように,この表は2つの確率変数の確率分布だといえますね。これを2次元同時確率変数(X,Y)の同時確率分布といいます。また,いちばん右の列はXのみの確率分布,いちばん下の行はYのみの確率分布を表していますね。このように,同時確率分布を表に表したとき,いちばん右やいちばん下といった「周辺」に現れる1つの確率変数についての確率分布を,周辺確率分布といいます。

では次に,確率変数の独立について説明します。上の表の白い部分の左上のマスを見てください。ここは,X=3,Y=3のときの確率を表していますね。これを次のように表します。

このマスの分数のかけ算を計算することで,次のことがわかりますね。

一方で,X=3となる確率や,Y=3となる確率は次のようになっています。

ということは,次の式が成り立っていますね。

この問題では,1回目に3のカードが取り出されるかどうかによって,2回目に3のカードが取り出される確率が変わります。XとYが互いに影響を与え合う関係にあるので,独立ではないということになります。

逆にいえば,2つの確率変数XとYが独立であるとは,XとYがとりうるすべての値a,bに対して,次の式が成り立つことをいいます。

これが確率変数の独立の定義です。【第1回】の記事で紹介した事象の独立と区別して覚えておきましょう。

確率変数の和・標本平均

同時確率分布では,複数の確率変数の組を考えましたが,複数の確率変数から別の新しい確率変数をつくるということも,統計学ではよく行います。例を挙げて説明します。

1,3,5の数が1つずつ書かれた3枚のカードから1枚を取り出し,取り出したカードをもとに戻してから,もう1枚のカードを取り出します。このとき,1回目に取り出したカードに書かれた数を表す確率変数をX1,2回目に取り出したカードに書かれた数を表す確率変数をX2と表すことにします。どちらの確率変数も1,3,5の値をとりますので,2つの値の組み合わせは9通りあります。

さらに,この2つの確率変数を用いて,新しい確率変数Xを次の式で定めます。

つまり,取り出した2枚のカードに書かれた数の和をXとするわけです。例えば,X=4となるのは,次の場合です。

9通りあるX1とX2の値の組は同様に確からしいので,その確率はすべて9分の1です。このことから,Xの確率分布は次の表のようになります。

新しい確率変数をつくる方法は,確率変数をたし合わせるだけではありません。例えば,サイコロを1回投げて出た目の数を表す確率変数をXとすると,Y=10X+40で定まる確率変数Yの確率分布は次のようになります。

そして,このような新しい確率変数をつくる方法の中で,統計学においてとても重要なものが,次に紹介する標本平均です。

まず,何らかの調査をしたい対象となる全体のことを母集団と言います。標本とは母集団の一部分のことであり,母集団からかたよりなく取り出される必要があります。この取り出し方を無作為抽出と言います。次のn個の確率変数を考えます。

これらは,同じ母集団から取り出された大きさnの標本であり,それぞれが母集団と同じ確率分布に従い,独立であるものとします。このとき,標本平均とは,次の式で定まる確率変数です。

確率変数の和は確率変数であり,全体にn分の1をかけても確率変数なので,標本平均は確率変数なのです。

例えば,世論調査で内閣の支持率を推測するために,1000人に聞き取り調査をするのなら,母集団は有権者全体であり,標本の大きさは1000です。1000人の回答結果にX1〜X1000までの(それぞれ独立に,支持するなら1,支持しないなら0という値をとる)確率変数を割り当てると,次の標本平均は内閣の支持率の真の値を推定するのに使うことができます。

世論調査での内閣の支持率は,1000人の選び方によって変わる確率変数として考えることができるのです。

標本平均の中央値と最頻値

データを値の小さい順に並べたときにちょうど真ん中にくる値を中央値(メディアン),最も多い値を最頻値(モード)と呼びます。これは中学1年の学習内容で,知っている人も多いと思いますが,同じ言葉を確率変数に対しても使います。

まず,離散型確率変数Xの最頻値とは,P(X)が最大になるようなXの値のことです。

次に中央値ですが,離散型確率変数の中央値には2つの場合があります。データの中央値にも2つの場合がありましたよね。データの個数が奇数個のときにはデータを大きさの順に並べたときにちょうど真ん中に位置する値があり,この値をデータの中央値と呼びました。これに対応する離散型確率変数の中央値の1つ目の定義は,次のようになります。

(中央値の定義1)離散型確率変数Xのとりうる値aのうち,次の2つの不等式を同時にみたすものが存在するとき,このaの値をXの中央値という。

一方で,データの個数が偶数個のときには,データを大きさの順に並べてもちょうど真ん中に位置する値はないので,データの中央値の定義が変わります。データを値が大きいほうの半分と小さいほうの半分に分け,値が小さいほうのグループの最大値と値が大きいほうのグループの最小値の平均をデータの中央値と呼びました。これに対応する離散型確率変数の中央値の2つ目の定義は,次のようになります。

(中央値の定義2)離散型確率変数Xのとりうる値a,b(a<b)のうち,次の2つの等式を同時にみたすものが存在するとき,aとbの平均をXの中央値という。

では,これを踏まえて,次の問題を解いていきましょう。

【問題】既知の母集団{2,8,16,20,28}を考える。この母集団から大きさ2の標本を無作為復元抽出し,順にX1,X2する。
また,この標本に対する標本平均を次のように定める。

このとき,標本平均の中央値と最頻値を求めなさい。

解答】「無作為」に取り出すので,1回の抽出で5つの数のどれを取り出す確率も5分の1です。また,「復元抽出」するとは,1回目に取り出した数をもとに戻してから2回目を取り出すという意味ですから,2回目の抽出で5つの数のどれを取り出す確率も5分の1です。よって,次の表のように,5×5=25(通り)の取り出し方があり,どの取り出し方も同様に確からしいので,それぞれの確率は25分の1です。

上の表の白い部分は,標本平均の値を表しています。したがって,標本平均の確率分布は次の表のようになります。

最頻値は,確率が最も大きい標本平均の値なので,この表から,標本平均の最頻値は18だとわかります。中央値については,(中央値の定義1)の不等式が次のように成り立つので,標本平均の中央値は15です。

(解答終わり)

離散型の確率変数の基本的な解説は以上になります。この後は,参考図書の紹介に続けて,さらに理解を深めるための演習問題ですので,余力があればぜひチャレンジしてみてください。

参考図書

本稿を執筆するにあたり,参考にした図書を2つ挙げます。

①基本統計学 第5版(宮川公男,有斐閣)
標本の抽出について丁寧に解説されており,標本平均が確率変数であることもしっかり説明されています。

②実用統計用語辞典(岩崎学・中西寛子・時岡規夫,オーム社)
離散型確率変数の中央値の定義は,こちらを参考にしつつ少し言い換えてわかりやすくしました。

演習1〜確率変数の最頻値〜

【問題】1から10までの整数が書かれた10枚のカードがある。この中から3枚のカードを同時に取り出すとき,3の倍数の数が書かれたカードの枚数をXとする。確率変数Xの最頻値を求めなさい。

解答】「3枚を1枚ずつ続けて取り出す」という場合には,取り出す順番を考えるので,「順列」を使い,「同時に3枚を取り出す」という場合には,取り出す順番を考えなくて良いので,「組合せ」を使うというのが一般論です。でも,3枚を1枚ずつ取り出そうが,同時に取り出そうが,3の倍数のカードが取り出される確率が変わるはずはありません。ここでは,【第1回】で学習した範囲内で済ませるため,「3枚を1枚ずつ続けて取り出す」と考えて,確率を求めていきます。

まず,起こりうるすべての場合の数を求めましょう。1枚目は10通りの場合があり,2枚目は1枚目で取り出したカード以外の9通りの場合があり,3枚目は1〜2枚目で取り出したカード以外の8通りの場合があるので,すべての場合の数は,

これが確率を求めるときの分母にくる数です。次に,それぞれの場合の分子を求めて,確率を計算していきましょう。3の倍数は,3,6,9の3枚あります。この中から3枚を取り出すので,X=0,1,2,3の4つの場合があります。

X=0のとき,3の倍数ではない7枚のカードから1枚ずつ3枚を取り出すことになります。分母を計算したときと同じ考え方で,1枚目は7通り,2枚目は6通り,3枚目は5通りの場合があるので,X=0となる場合の数は,

X=1となるのは,例えば,1,2,3の3枚のカードのように,3の倍数のカードを1枚,3の倍数ではないカードを2枚取り出す場合です。1枚目に3の倍数を取り出すとすると,1枚目は,3,6,9の3通りの決め方があり,2枚目は,3の倍数以外の7通り,3枚目は,2枚目で取り出した数を除く6通りとなります。3の倍数が2枚目の場合や3枚目の場合も全く同じように計算できるので,X=1となる場合の数は,

X=2となるのは,例えば,1,3,6の3枚のカードのように,3の倍数のカードを2枚,3の倍数ではないカードを1枚取り出す場合です。1枚目に3の倍数ではないカードを取り出すとすると,1枚目は,3の倍数以外の7通り,2枚目は,3,6,9の3通り,3枚目は,2枚目で取り出していない3の倍数の2通りがあります。3の倍数でない数が2枚目の場合や3枚目の場合も全く同じように計算できるので,X=2となる場合の数は,

X=3のとき,3,6,9の3枚のカードを取り出すことになります。この3枚のうち,どのカードを何回目に取り出すか(=3枚のカードの並べ方)を計算すれば良いので,X=3となる場合の数は,

よって,確率分布は次の表のようになります。

最頻値とはP(X)が最大になるXの値のことでした。上の表から,確率が最も大きいのはX=1のときなので,最頻値は1です。(解答終わり)

演習2〜独立性〜

【問題】プロ野球パリーグの各球団の人気選手20人ずつ,6球団で合計120人の姿が1人ずつ描かれた野球カードがあり,各球団の20枚のうち,3枚には選手のサインが入っている。120枚の中から1枚を取り出すとき,取り出したカードに描かれた選手の所属球団の昨年の順位をX,サインの有無をYとする(サイン入りをY=1,サインなしをY=0とする)。このとき,XとYは独立であるといえるか。

解答】XとYの同時確率分布は次のようになります。

例えば,左上のマスは,次のことを示しています。

このマスと同じ列のいちばん下の行の確率と,同じ行のいちばん右の列の確率との積は,次のようになっています。

よって,次の式が成り立っています。

同じように,12個のマスすべてについて,次の式が成り立っています。

したがって,XとYは独立であるといえます。(解答終わり)

演習3〜標本平均〜

【問題】既知の母集団{1,5,7,9}を考える。この母集団から大きさ2の標本を無作為復元抽出し,

とする。この標本に対する標本平均を

とするとき,標本平均の中央値を求めなさい。

解答】標本平均の値をまとめると,次の表のようになります。

したがって,標本平均の確率分布は次の表のようになります。

標本平均の中央値については,標本平均の値が5以下となる確率が2分の1,6以上となる確率が2分の1なので,確率変数の中央値の定義2から,5と6の平均の5.5です。(解答終わり)

第3回は以上となります。最後までお付き合いいただき,ありがとうございました!
引き続き,第4回以降の記事へ進んでいきましょう!

さらに実戦に向けた演習を積みたい人は,「統計検定2級公式問題集2018〜2021年(実務教育出版)」を手に取ってみてください!

また,もっと別の問題を解いてみたい人は,さらにさかのぼって「統計検定2級公式問題集2016〜2017年(実務教育出版)」を解いて実力に磨きをかけましょう!

コメント

タイトルとURLをコピーしました