[생각보다 쉬운 통계학] 3.분포 - 연속형 분포 (1)

😀 이번 포스팅의 목표는 아래 분포를 살펴보려고 합니다.
1. 균일분포
2. 감마함수 및 감마분포
3. 지수분포
4. 베타분포

이번 포스팅부터는 연속형 분포를 다뤄보려고 합니다.

연속형 확률변수가 따르는 분포인데요,

확률변수의 범위가 무한으로 연속적인 경우입니다.

연속형 분포는 주황색 박스입니다.


1. 균일분포(균등분포, Uniform distribution)

  • 균일 분포(Uniform distribution)
    임의의 실수 구간 [a,b]에서 발생 확률이 모두 동일한 확률변수의 분포

 

>  균일분포 확률밀도함수

$$ X \sim U(a=min, b=max) $$

$$ f(x) = \cfrac{1}{b-a}, \;\;\, a \leq x \leq b $$

 

> 확률분포함수 조건

  • $ \cfrac{1}{b-a} > 0 $
  • $ \int_{R}^{} \cfrac{1}{b-a} dx = 1  $

 

> 평균(기댓값), 분산, 표준편차

  • 평균(기댓값) 유도
    \begin{align}
    E(X) &= \int_{a}^{b} x \times \cfrac{1}{b-a} dx \\
     &= \cfrac{b^{2}-a^{2}}{2(b-a)} \\
     &= \cfrac{a+b}{2}
    \end{align}

  • 분산 유도
    \begin{align*}
     Var(X)&= \int_{a}^{b} x^{2} \times \cfrac{1}{b-a} dx - \left( \cfrac{a+b}{2} \right )^2 \\
     &= \left( \cfrac{b^{3} - a^{3}}{3(b-a)} \right ) - \left( \cfrac{a+b}{2} \right )^2 \\
     &= \cfrac{b^{2} + ab + a^{2}}{3} - \left( \cfrac{a+b}{2} \right )^{2} \\
     &= \cfrac{a^{2} - ab + b^{2}}{12} \\
     &= \cfrac{(b-a)^2}{12}
    \end{align*}

  • 표준편차
    $$ \sqrt{ \cfrac{(b-a)^2}{12}  } $$

 

> 그래프

최대값 5, 최소값 0으로 설정한 그래프입니다.

 

예제문제를 풀이해봅시다.

개는 통상적으로 체중에 따라 분류를 하고 있습니다. 7kg 이하는 소형견, 7kg~15kg는 중형견, 15kg 초과시 대형견으로 구분합니다. 그렇다면 중형견의 경우 체중의 평균과 분산을 구할 수 있을까요?

더보기

중형견의 체중을 $X$라고 둔다면,

$ X \sim U(7, 15) $

평균 : $ \frac{a+b}{2} = \frac{7+15}{2} = 11 $

분산 : $ \frac{ (b-a)^2 }{12} = \frac{ (15-7)^2}{12} = 5.333 $

 


2. 감마분포 (Gamma distribution)

감마분포에 대해 배우기 전, 감마함수포아송분포에 대한 사전지식이 필요합니다.
포아송분포에 대한 내용이 기억나지 않는다면,
https://begin-stat.tistory.com/9?category=523978 으로 접속해주세요.

  • 감마함수
    팩토리얼의 개념을 복소수까지 확장하고 일반화한 함수
    $ \Gamma (n) = \int_{0}^{\infty} x^{n-1} e^{-x} dx, \,\, n>0 $
    $ \Gamma (n) = \frac{1}{n} \Gamma (n+1), \,\, n \leq 0 $

    • 감마함수 특징
      • $ \alpha > 1$일 때, $ \Gamma(\alpha) = (\alpha - 1)\Gamma( \alpha -1) $
      • 양의 정수 $n$에 대하여 $ \Gamma(n) = (n-1)! $
      • $ \Gamma( \cfrac{1}{2} ) = \sqrt{ \pi } $
      • $ \Gamma(1) = 1 $


  • 감마분포 (Gamma distribution)
    평균 $\lambda$인 포아송분포에서 한 사건이 발생한 후 $r$번째 사건이 발생할 때까지 시간에 대한 분포

 

>  감마분포 확률밀도함수

$$ X \sim Gam( r , \lambda ) $$

$$ f(x) = \cfrac{\lambda^r}{ \Gamma (r)} \times x^{r-1} \times e^{- \lambda x}, \;\;\, x, r, \lambda > 0 $$

여기서 $\lambda$는 포아송분포의 평균을 나타내는 척도모수(scale parameter)이고,

$r$은 형태모수(shape parameter)로 첫 번째 사건 발생 후, $r$번째 발생한 사건을 나타냅니다.

 

> 확률분포함수 조건

  • $ \cfrac{\lambda^r}{ \Gamma (r)} \times x^{r-1} \times e^{- \lambda x} > 0 $
  • $ \int_{0}^{\infty} \cfrac{\lambda^r}{ \Gamma (r)} \times x^{r-1} \times e^{- \lambda x} dx = 1  $

> 확률분포함수 특징

  • $r=1$인 경우, 지수분포 $Exp(\lambda)$를 따름
  • $r=2$인 경우, 카이제곱분포 $\chi^2(r)$ 따름

 

> 평균(기댓값), 분산, 표준편차

  • 평균(기댓값) 유도
    \begin{align*}
    E(X) &= \int_{0}^{\infty} x \times \frac{ \lambda ^ {r}}{\Gamma (r)} x^{r-1} e^{- \lambda x} dx \\
    &= \int_{0}^{\infty} \frac{\lambda^{r-1} \lambda}{\Gamma (r)} x^{r} e^{- \lambda x} \\
    &= \frac{1}{\lambda \Gamma (r)} \times \int_{0}^{\infty} \lambda^{r} \lambda x^{r} e^{- \lambda x} dx \\
    &= \frac{1}{\lambda \Gamma (r)} \times \int_{0}^{\infty} \left( \lambda x \right)^{r} e^{- \lambda x} \lambda dx \\
    & Let, u = \lambda x \\
    &= \frac{1}{\Gamma (r) \lambda} \times \int_{0}^{\infty} u^{r} e^{-u} du \\
    &= \frac{1}{\Gamma (r) \lambda} \times \Gamma (r+1) \\
    &= \frac{1}{\Gamma (r) \lambda} \times r \Gamma (r) \\
    &= \frac{r}{\lambda}
    \end{align*}

  • 분산 유도
    $ E(X^2) - \left ( E(X) \right )^2 $으로 계산하겠습니다.

    \begin{align*}
     E(X^2)&= \int_{0}^{\infty} x^{2} \times \frac{\lambda^r}{\Gamma (r)} x^{r-1} e^{- \lambda x} dx \\
     &= \int_{0}^{\infty} \frac{ \lambda^{r-1} \lambda}{ \Gamma (r)} x^{r} e^{- \lambda x} dx \\
     &= \frac{1}{\Gamma(r) \lambda} \times \int_{0}^{\infty} \lambda^{r} \lambda x^{r+1} e^{- \lambda x} dx \\
     & Let, u= \lambda x \\
     &= \frac{1}{ \Gamma (r) \lambda} \times \int_{0}^{\infty} \frac{u^{r} e^{-u}}{\lambda} du \\
     &= \frac{1}{ \Gamma (r) \lambda^2} \times \int_{0}^{\infty} u^{r} e^{-u} du \\ 
     &= \frac{1}{ \Gamma (r) \lambda^2} \times \Gamma(r+2) \\
     &= \frac{1}{\Gamma (r)} \times \frac{1}{\lambda^2} \times r(r+1) \Gamma (r) \\
     &= \frac{r(r+1)}{\lambda^2}
    \end{align*}

    \begin{align*}
    Var(X) &= \frac{r(r+1)}{\lambda^2} - \left(\frac{r}{\lambda} \right )^2 \\
     &= \frac{r}{\lambda^2}
    \end{align*}
  • 표준편차
    $$ \sqrt{ \cfrac{r}{\lambda^2}  } $$

 

> 그래프

$\lambda = 1.5 $으로 설정한 그래프입니다.

 

예제문제를 풀이해봅시다.

1시간 평균 2152명이 방문하는 기차역이 있습니다. 두명의 승객이 방문할 시간이 5분이상 기다릴 확률은 어떻게 될까요?

더보기

$ \mu = 2152/60 = 35.867 $

$ \lambda = 1/\mu = 0.0279 $

$r=2$ (두 명의 승객)

$ P(X>5) = \int_{5}^{\infty} \frac{0.0279^2}{\Gamma(2)} x^{2-1} \times e^{- 0.0279 x} dx = 0.9911406$

 

5분 이상 기다릴 확률은 약 0.99이네요.

 


3. 지수분포(Exponential distribution)

지수분포에 대해서 살펴보기 위해 포아송분포에 대한 개념이 필요합니다.

기억이 나지 않는다면, https://begin-stat.tistory.com/9?category=523978 으로 와주세요.

 

  • 지수 분포(Uniform distribution)
    하나의 사건이 발생한 후 다음 사건이 일어날 때 걸리는 시간에 대한 분포

쉽게 생각해볼까요?
어떤 사건의 발생 횟수가 포아송 분포를 따른다면, 사건 사이 걸리는 시간은 지수분포를 따른다는 것입니다.

 

> 확률분포함수 특징

  • 기계 수명 분석시 사용
  • 감마분포에서 shape parameter = 1인 경우의 분포
  • 독립적으로 동일한 지수분포의 확률변수 합감마분포를 따름
  • 무기억성(비기억성, 건망성)
    어떤 특정 시점 $A$부터 $t$시점까지 그 사건이 일어나지 않았다고 가정한다면,
    $t$시점 이후 $s$ 단위 시간동안 그 사건이 일어나지 않을 확률은
    $A$시점부터 $s$ 단위 시간동안 그 사건이 일어나지 않을 확률과 같다.
    $$ P \left[ X > x+y | X > x \right ] = P \left[ X > y \right ], \,\, x>0, y>0 $$

>  지수분포 확률밀도함수

$$ X \sim Exp (\lambda) $$

$$ f(x) = \lambda e^{- \lambda x}, \;\;\, x > 0, \lambda > 0 $$

 

> 확률분포함수 조건

  • $  \lambda e^{- \lambda x}> 0 $
  • $ \int_{R}^{} \lambda e^{- \lambda x} dx = 1  $

 

> 평균(기댓값), 분산, 표준편차

  • 평균(기댓값) 유도
    \begin{align*}
    E(X) &= \int_{0}^{\infty} x \times \lambda e^{- \lambda x} dx \\
     &= \lambda \times \int_{0}^{\infty} x e^{- \lambda x} \\
     &= \lambda \times \left\{ \left [ -x \frac{1}{\lambda} e^{- \lambda} \right ]_{0}^{\infty} \right\}  - int_{0}^{\infty} e^{- \lambda x} \times \left( - \frac{1}{\lambda} \right ) dx \\
     &= \lambda \times \left\{ \left [ -x \frac{1}{\lambda} e^{-\lambda} \right ]_{0}^{\infty} - \left [ \frac{1}{ \lambda^{2}} e^{- \lambda x} \right ]_{0}^{\infty} \right\} \\
    &= \lambda \times \frac{1}{\lambda^2} \\
    &= \frac{1}{\lambda}
    \end{align*}

  • 분산 유도
    \begin{align}
     Var(X) &= \int_{0}^{\infty} x^{2} \times \lambda e^{- \lambda x} dx - \mu^{2} \\
     &= \lambda \times \int_{0}^{\infty} x^2 \times \lambda e^{- \lambda x} dx - \mu^2 \\
     &= \lambda \times \left\{ \left [ x^2 \times - \frac{1}{\lambda} e^{- \lambda x} \right ]_{0}^{\infty}  - \int_{0}^{\infty} 2x \times - \frac{1}{\lambda} e^{- \lambda x} dx \right \} \\
     &= \lambda \times \left\{ \left [ - \frac{x^2}{\lambda} e^{- \lambda x} \right]_{0}^{\infty} + \frac{2}{\lambda} \int_{0}^{\infty} x e^{- \lambda x} dx \right\} - \mu^2 \\
     &= \lambda \times \left\{ \left[ - \frac{x^{2}}{\lambda} e^{\lambda x}\right]_{0}^{\infty} + \frac{2}{\lambda}\left\{\left[x \times - \frac{1}{\lambda} e^{\lambda x}\right]_{0}^{\infty} - \int_{0}^{\infty} - \frac{1}{\lambda}e^{-\lambda x}dx \right\} \right\}-\mu^{2} \\
     &= \lambda \times \frac{2}{\lambda} \times \frac{1}{\lambda^2} - \mu^{2} \\
     &= \frac{2}{\lambda^2} - \left( \frac{1}{\lambda} \right)^2 \\
     &= \frac{1}{\lambda^2}
    \end{align}

  • 표준편차
    $$ \sqrt{ \cfrac{1}{\lambda^2} } $$

 

> 그래프

$\lambda = 1 $인 그래프입니다.

 

 

예제문제를 풀이해봅시다.

1시간 평균 2152명이 방문하는 기차역이 있습니다. 첫 승객이 1시간만에 방문할 확률은 어떻게 될까요?

더보기

$ \mu = 2152/60 = 35.867 $

$ \lambda = 1/\mu = 0.0279 $

$ f(x) = \lambda exp \left( - \lambda \times t \right) $

$ \int_{0}^{1} \lambda exp \left( - lambda \times 1 \right)  = 0.027 $

 

1시간만에 첫 승객이 방문할 확률은 0.027입니다.

 

 


4. 베타분포(Beta distribution)

베타분포에 대해 배우기 전, 감마함수와 베타함수에 대한 사전지식이 필요합니다.

  • 베타함수
    복소수 $\alpha, \beta$의 실수부분이 양수인 경우, 감마함수를 활용하여 정의되는 함수
    $ \cfrac{ \Gamma (\alpha + \beta)}{ \Gamma ({ \alpha}{\beta}) } = \int_{0}^{1} x^{\alpha} (1-x)^{\beta - 1} $

  • 불완전 베타함수
    베타함수 식에서 상한값을 1이 아닌 임의의 상수로 정한 함수
    $ f(x) = \int_{0}^{a} x^{ \alpha -1} (1-x)^{ \beta -1} dx, \,\, 0<a<1 $

  • 베타분포 (Gamma distribution)
    모수 $\alpha $와 $ \beta$에 따라 구간 [0,1]에서 정의되는 분포

> 확률분포함수 특징

  • $ \alpha = 1, \beta = 1$인 경우 균일분포와 같다.

>  베타분포 확률밀도함수

$$ X \sim Beta( \alpha, \beta) $$

$$ f(x) = \cfrac{\Gamma (\alpha + \beta)}{\Gamma (\alpha) \Gamma (\beta)}x^{\alpha -1}(1-x)^{\beta -1}, \;\;\, \alpha, \beta > 0, 0<x<1 $$

 

> 확률분포함수 조건

  • $ \cfrac{\Gamma (\alpha + \beta)}{\Gamma (\alpha) \Gamma (\beta)} x^{\alpha -1} (1-x)^{\beta -1} > 0 $
  • $ \int_{R}^{} \cfrac{\Gamma (\alpha + \beta)}{\Gamma (\alpha) \Gamma (\beta)}x^{\alpha -1}(1-x)^{\beta -1} dx = 1  $

 

> 평균(기댓값), 분산, 표준편차

  • 평균(기댓값) 유도
    \begin{align}
    E(X) &= \int_{0}^{1} x \times \cfrac{\Gamma (\alpha + \beta)}{ \Gamma (\alpha) \Gamma (\beta)} x^{\alpha -1} (1-x)^{\beta - 1} dx \\
     &= \frac{\Gamma (\alpha + \beta) \Gamma (\alpha +1)}{\Gamma(\alpha) \Gamma(\alpha + \beta + 1)} \int_{0}^{1} \frac{\Gamma( \alpha + \beta + 1)}{\Gamma (\alpha + 1) \Gamma (\beta)} x^{(\alpha+1)-1} (1-x)^{\beta -1} dx \\
     &= \frac{\Gamma (\alpha + \beta) \Gamma (\alpha +1)}{\Gamma(\alpha) \Gamma(\alpha + \beta + 1)} \\
     &= \frac{ (\alpha + \beta -1)! \alpha !}{(\alpha -1)!(\alpha + \beta)!} \\
     &= \frac{ \alpha}{\alpha + \beta}
    \end{align}

  • 분산 유도
    \begin{align*}
     Var(X)&= \int_{0}^{1} x^{2} \times \cfrac{\Gamma (\alpha + \beta)}{\Gamma (\alpha) \Gamma (\beta)} x^{\alpha -1}(1-x)^{\beta -1} dx - \mu^2 \\
     &= \frac{\Gamma (\alpha + \beta) \Gamma(\alpha +2)}{\Gamma (\alpha) \Gamma (\alpha + \beta + 2)} \int_{0}^{1} \frac{\Gamma (\alpha + \beta + 2)}{\Gamma (\alpha + 2) \Gamma (\beta)}x^{(\alpha +2)-1} (1-x)^{\beta -1} dx - \mu^2 \\
     &= \frac{(\alpha + \beta -1)! (\alpha +1)!}{(\alpha -1)!(\alpha + \beta + 1)! } -\mu^2 \\
     &= \frac{\alpha (\alpha + 1)}{(\alpha + \beta + 1)(\alpha + \beta)} - \left ( \frac{\alpha}{\alpha + \beta} \right )^2 \\
     &= \frac{\alpha \beta}{(\alpha + \beta + 1)(\alpha + \beta)^2}
    \end{align*}

  • 표준편차
    $$ \sqrt{ \frac{\alpha \beta}{(\alpha + \beta + 1)(\alpha + \beta)^2}  } $$

 

> 그래프

 

 


'균일분포', '감마분포', '지수분포', '베타분포'의 정의와 관계에 대해 설명드렸습니다.

이번 포스팅의 내용 역시 많아서 조금 걱정이 됩니다.

다음 포스팅부터는 와이블분포, 정규분포와 같이 연속형 분포에 추가로 더 알아보겠습니다😊

TAGS.

Comments