指数分布【統計検定準1級のための数学③】

統計学

「指数分布がなんとなくしっくりこない…」と感じていませんか。教科書を見れば確率密度関数とグラフの形はわかりますが,それらと有機的に結びつくイメージが大切です。そのために,本稿では「指数分布がどこから生まれるか」に着目し,指数分布の源流としてイメージがしやすいと思われる幾何分布との関係を説明します。最後まで読み終える頃には,指数分布と仲良くなれているはずです。

本稿の目的は,指数分布を解説すること以外にもう1つあり,それは指数分布を理解するために必要な数学を解説することです。【統計検定準1級のための数学】と題した記事では,統計検定2級からスムーズに準1級に進めるように,ギャップをうめるために必要な数学も解説していきます。本稿では,指数分布に関連して合成関数の微分と部分積分を解説します。

この記事で前提とする知識は,【中学の数学からはじめる統計検定2級講座】の第1回の確率,第2回の条件付き確率,第3回の確率変数,第4回の期待値と分散,第6回の微分積分,第7回の広義積分,【統計検定準1級のための数学】の①(幾何分布)②(指数関数)の内容になります。これらの内容に不安がある人は,先にそちらの記事を読んでください。

では,はじめていきましょう!

合成関数の微分

合成関数とは,例えば,次のような関数のことです。

上の式の「どこが合成なのか」がわからない人もいるかもしれませんが,次の図のように関数y=ー2x+3と関数z=y2を合成したものとみなすことができます。

上の図の左端の枠の中には例として5を入れていますが,どんな数でもかまいません。その数にー2倍して3を加えた数が真ん中の枠に入り,さらにその数を2乗して得られる数が右端の枠に入るという関係を表しています。

では,合成関数の微分について成り立つ規則を紹介しましょう。

左辺はzをxの関数と見たときの微分であり,それは右辺のように計算できると上の式は言っています。実際に,上の例を使って計算してみましょう。zをyの関数として微分すると,次のように2yになりますよね。

また,yをxの関数として微分すると,次のようにー2になりますよね。

よって,上の合成関数の微分の公式により,zをxの関数として微分した結果は次のようになります。

さて,この例では,合成関数の微分の公式を使わなくても微分が直接できるので,試しにやってみましょう。zを定義する式の右辺を展開すると,次のようになります。

最右辺をxで微分すれば,確かに8xー12となって,合成関数の微分の公式を使った結果と一致します。どちらでも計算できるなら合成関数の微分は不必要に思えるかもしれませんが,ここではあえて2つの方法で計算できる多項式を例として取り上げました。指数関数と多項式の合成関数などでは,合成関数の微分は威力を発揮しますので,覚えておきましょう。

積の微分と部分積分

このセクションでは,関数f(x)とg(x)は[a,b]でC1級(微分可能で導関数が連続)であるものとします。積f(x)g(x)の微分について,次の公式が成り立ちます。

これを積の微分公式と呼ぶことにします。例えば,関数y=(2x+3)(3xー5)をf(x)=2x+3とg(x)=3xー5の積と考えて,積の微分公式を使うと,次のように計算できます。

同じ関数y=(2x+3)(3xー5)を,積の微分公式を使わずに展開してから微分すると,次のようになります。

2つの結果が一致したことから,積の微分公式は正しそうだとわかりますね。この場合にはどちらの方法でも大差はありませんが,積の微分公式を使わなければ微分の計算が困難な場合は無数にありますので,覚えておいてください。

次に,積の微分公式の両辺を積分すると,次のようになります。

移項すると,次の式になります。

この左辺から右辺への変形を部分積分と言います。次のセクションでは,実際に部分積分を使っていきます。

指数分布

指数分布を理解するために,魚釣りをしている一人の少年を想像しましょう。次の図1は,釣りをはじめてからの経過時間を数直線で,魚が釣れた時刻を緑の丸で表したものです。

時間を30分単位に区切り,魚が釣れた区間にだけ◯をつけると,次の図2になりますね。

ここで,次の条件を仮定しましょう。

  • 魚が釣れる確率はつねに一定
  • 魚が釣れる事象は互いに独立
  • 同時に2匹以上の魚が釣れることはない

上の図2では,1つの区間に高々1つしか◯がついていませんが,もし別の日の釣果を30分単位で表すと,1つの区間に2つ以上の◯がつくこともあるかもしれません。でも1分単位に区切れば,1つの区間につく◯の数は高々1個だと考えてよいでしょう。そのくらい細かく時間を区切ったとき,◯がつく区切りの数は二項分布にしたがいます。そして「1つの区間に◯がついたときに,次に◯がつくのは何個後の区間になるか」という情報を与えてくれるのが幾何分布ですよね。図2を,左から3マス,5マス,2マス,4マスの順に区切ると,幾何分布にしたがう事象が続いたものと考えることができます。

次に,図2から図1に移行していきましょう。そのためには,区間の幅をどこまでも細かくしていく極限を考える必要があります。後で数式で示すように,幾何分布の時間の幅を無限に小さくした極限が指数分布になるので,幾何分布が連続する図2は,時間の幅が短くなるにつれて指数分布が連続する図1へと近づいていきます。つまり,図1で,1つの◯がついた直後から次に◯がつくまでの時間がしたがう確率分布が指数分布です。

では,指数分布を数式でとらえていきましょう。パラメータλ(λ>0)の指数分布の確率密度関数は次の式で表せます。

後で示すように,パラメータのλは「単位時間にイベントが平均して起きる回数」を表しています。ということは,λが大きいほどイベントが起こりやすいので,ランダムなイベントが次に起こるまでの時間は平均的に短くなりそうです。そのことを図で確認してみましょう。次の図は,指数分布の確率密度関数のグラフで,λ=1の場合が青のグラフ,λ=2の場合が赤のグラフになります。

上の図を見れば,λが大きいほうが急速に確率密度が0に近づいていくのがわかりますね。

では,f(x)が確率密度関数の条件を満たしているかどうかを確認してみましょう。縦軸の切片がλに等しく,単調に減少しますが,x≧0でつねに正の値をとり続けるので,f(x)を(0,∞)で積分した結果が1であることを示せればいいですね。そのために,合成関数の微分の知識が必要になります。まず,次の関数zをxで微分してみましょう。

この関数を,y=ーλxと指数関数z=eyの合成関数と考えます。zをyの関数として微分すると,指数関数は微分しても形が変わらないので,eyのままです。また,yをxの関数として微分するとーλになるので,zをxで微分した結果は次のようになります。

これで,次のことがわかりました。

よって,指数分布の確率密度関数を(0,∞)で積分すると,次のようになります。

上の計算では,次の極限を使っています。

これで,f(x)が確率密度関数であることがわかりました。次に,累積分布関数を求めてみると,次のようになります。

累積分布関数の計算結果は,Xを指数分布にしたがう確率変数として,次のように言い換えることができます。

指数分布は機械の故障のようなイベントが起こるまでの時間を表すのに使われることが多いので,上の確率はxの時点で機械が故障していない確率だと言えます。

次に,指数分布の期待値を計算します。そのためには,次のように部分積分を使います。

上の計算を続けるには,次の極限に注意しましょう。

上の極限が0であることを計算で示すには,ロピタルの定理を用いる方法がありますが,ここでは「x→∞のとき,xよりも指数関数のほうが無限大に発散するスピードが速いため」のように直感的に理解しておくことにします。このことを踏まえると,先ほどの期待値の計算の続きは次のようになります。

期待値はλの逆数になりました。λが大きいほどイベントが起こりやすく,ランダムなイベントが次に起こるまでの時間は平均的に短くなるということを反映していますね。

では,分散を計算していきます。そのために,次のように2乗の期待値を計算します。

上の計算を続けるには,次の極限に注意します。

xの2乗でも指数関数が無限大に発散するスピードにはかなわないということですね。よって,2乗の期待値の計算は積分を残すのみですが,ほとんど同じ積分をすでに計算しているので,その結果を利用すると,次のようになります。

これで2乗の期待値が求められたので,分散は次のようになります。

つまり,指数分布の期待値と標準偏差はどちらもλ分の1で等しくなるわけです。

では,ここまでの内容を踏まえて,次の問題を解いてみましょう。

【問題】ある電子機器の寿命は平均2年の指数分布にしたがうものとする。この電子機器が2年以内に壊れる確率を求めなさい。

【解答】時間の単位を年だとして,指数分布の確率密度関数を次のように表すときのλを求めましょう。

上の確率密度関数から求めた期待値(=平均)はλ分の1でしたね。平均が2年なので,λ分の1=2を解いて,λは2分の1だとわかります。よって,この電子機器の寿命がしたがう指数分布の確率密度関数は次の式になります。

次の図は,この確率密度関数を表していて,グラフと軸で囲まれる部分のうち,2年以内に対応するのは緑の破線の左側になります。

よって,2年以内に壊れる確率は次の積分を計算することで求めることができます。

積分をそのまま計算してもよいですが,すでに求めてある累積分布関数を使うと,次のようになります。

(解答終わり)

幾何分布との関係と無記憶性

幾何分布は,離散型確率分布の中で無記憶性を持つただ一つの確率分布でした。そして,指数分布は,連続型確率分布の中で無記憶性を持つただ一つの確率分布です。このセクションでは,指数分布が無記憶性を持つことを確認し,幾何分布の極限として指数分布が得られることを示します。

まず,無記憶性についてです。Xが指数分布にしたがうとき,無記憶性と呼ばれる次の性質が成り立ちます。

この式の解釈については後で補足するとして,指数分布についてこの式が成り立つことを示しましょう。a>0とすると,X>aとなる確率は次のように表せることを思い出しましょう。

このことを使うと,無記憶性が成り立つことは次のように示せます。

では,無記憶性の解釈について補足します。前のセクションで解いた問題を次のように書き直してみましょう。

(例)ある電子機器の寿命は平均2年の指数分布にしたがうものとする。この電子機器が1年経過しても壊れなかったという条件のもとで,3年以内に壊れない確率を求めなさい。

電子機器の寿命を表す確率変数をX(年)とすると,無記憶性は次の式で表すことができます。

つまり,1年経過しても壊れなかったという条件のもとで3年以内に壊れない確率は,2年以内に壊れない確率と等しいのです。上の式の左辺は1年が経過していますが,「何年経っているかは関係なく,つねにゼロからのスタートと同じ」というのが無記憶性の意味するところです。

ここで,ふたたび,次の図をイメージしましょう。

無記憶性の帰結として「ランダムなイベントが1回起きた後に試行を何回くり返せば次のイベントが起こるかわからない」ということになり,上の図のように離散的に考えると幾何分布,Δt→0として連続的に考えると指数分布になります。

では,指数分布を幾何分布から導出していきます。非常に短い時間Δtごとにベルヌーイ試行を行い,その成功確率は時間幅に比例する(p=λΔt)ものとします。単位時間あたりの試行回数は1÷Δtなので,単位時間あたりの成功回数は平均λ(=p÷Δt)回であるということになります。はじめて成功するまでにかかる時間をXとすると,その確率は次の式で表せます。

正の数xに対して,nΔt≦x<(n+1)Δtとなるnをとると,X>xとなる確率は次のように表せます。

ここで,nΔt≦x<(n+1)Δtを変形すると,次の不等式が得られます。

Δtの範囲がこのようになることを使うと,P(X>x)について次の不等式が得られます。

ここで,xを固定し,nΔt≦x<(n+1)Δtの関係を保った上で,n→∞,Δt→0の極限を考えると,ポアソン分布の記事(リンクはこちら)で学習したように,上の不等式の最右辺と最左辺はどちらも次の式のように同じ極限に収束します。

よって,はさみうちの原理から,次の結果が得られます。

最後の積分の被積分関数は指数分布の確率密度関数ですね。つまり,単位時間あたりの成功回数がλであるようなベルヌーイ試行をΔtの間隔でくり返すと,はじめて成功するまでの待ち時間の分布はΔt→0の極限でλをパラメータとする指数分布に一致します。

参考図書

本稿を執筆するにあたり,次の書籍を参考にしました。

①確率過程の基礎(R.デュレット著,丸善出版)
本稿でも扱っていない指数分布の基本的な性質が網羅的に説明されているので,さらに進んだ勉強をしたい人にオススメです。

②数理統計学の基礎(尾畑伸明著,共立出版)
指数分布が幾何分布の極限であることの証明について参考にさせてもらいました。

本稿はここまでとなります。最後までお読みいただき,ありがとうございました!
引き続き,勉強をがんばっていきましょう!

コメント

  1. K.K. より:

    更新ありがとうございます!
    こちらのブログを教科書に統計学を学習し、先日統計検定2級に合格しました。統計Webではなかなか理解が進まなかった私にも大変分かりやすく、楽しく学ばせていただいています。

    準1級の内容も勉強していきたいのですが、線形代数(特に行列)が分からなすぎて手も足も出ない状態です。とけたろう先生の有料の準1級講座があるとの情報を目にしたので、一般公開を楽しみにしております!

    • とけたろう とけたろう より:

      統計検定2級の合格おめでとうございます🥳🎉
      準1級講座も楽しみしていただいているとのことで,うれしい限りです!
      微分積分と線形代数のうち,準1級で必要な内容はYouTubeで一般公開する動画(+ブログ)にて解説していくので,お役に立てるものになるように最善を尽くします!
      準1級の濃い内容の部分を動画+記事で解説する講座のリリースはYouTube,ブログ,Twitterでアナウンスしますので,今しばらくお待ちください!

タイトルとURLをコピーしました