[생각보다 쉬운 통계학] 3.분포 - 연속형 분포 (1)
😀 이번 포스팅의 목표는 아래 분포를 살펴보려고 합니다.
1. 균일분포
2. 감마함수 및 감마분포
3. 지수분포
4. 베타분포
이번 포스팅부터는 연속형 분포를 다뤄보려고 합니다.
연속형 확률변수가 따르는 분포인데요,
확률변수의 범위가 무한으로 연속적인 경우입니다.
연속형 분포는 주황색 박스입니다.
1. 균일분포(균등분포, Uniform distribution)
- 균일 분포(Uniform distribution)
임의의 실수 구간 [a,b]에서 발생 확률이 모두 동일한 확률변수의 분포
> 균일분포 확률밀도함수
$$ X \sim U(a=min, b=max) $$
$$ f(x) = \cfrac{1}{b-a}, \;\;\, a \leq x \leq b $$
> 확률분포함수 조건
- $ \cfrac{1}{b-a} > 0 $
- $ \int_{R}^{} \cfrac{1}{b-a} dx = 1 $
> 평균(기댓값), 분산, 표준편차
- 평균(기댓값) 유도
\begin{align}
E(X) &= \int_{a}^{b} x \times \cfrac{1}{b-a} dx \\
&= \cfrac{b^{2}-a^{2}}{2(b-a)} \\
&= \cfrac{a+b}{2}
\end{align} - 분산 유도
\begin{align*}
Var(X)&= \int_{a}^{b} x^{2} \times \cfrac{1}{b-a} dx - \left( \cfrac{a+b}{2} \right )^2 \\
&= \left( \cfrac{b^{3} - a^{3}}{3(b-a)} \right ) - \left( \cfrac{a+b}{2} \right )^2 \\
&= \cfrac{b^{2} + ab + a^{2}}{3} - \left( \cfrac{a+b}{2} \right )^{2} \\
&= \cfrac{a^{2} - ab + b^{2}}{12} \\
&= \cfrac{(b-a)^2}{12}
\end{align*} - 표준편차
$$ \sqrt{ \cfrac{(b-a)^2}{12} } $$
> 그래프
최대값 5, 최소값 0으로 설정한 그래프입니다.
예제문제를 풀이해봅시다.
개는 통상적으로 체중에 따라 분류를 하고 있습니다. 7kg 이하는 소형견, 7kg~15kg는 중형견, 15kg 초과시 대형견으로 구분합니다. 그렇다면 중형견의 경우 체중의 평균과 분산을 구할 수 있을까요?
중형견의 체중을 $X$라고 둔다면,
$ X \sim U(7, 15) $
평균 : $ \frac{a+b}{2} = \frac{7+15}{2} = 11 $
분산 : $ \frac{ (b-a)^2 }{12} = \frac{ (15-7)^2}{12} = 5.333 $
2. 감마분포 (Gamma distribution)
감마분포에 대해 배우기 전, 감마함수와 포아송분포에 대한 사전지식이 필요합니다.
포아송분포에 대한 내용이 기억나지 않는다면, https://begin-stat.tistory.com/9?category=523978 으로 접속해주세요.
- 감마함수
팩토리얼의 개념을 복소수까지 확장하고 일반화한 함수
$ \Gamma (n) = \int_{0}^{\infty} x^{n-1} e^{-x} dx, \,\, n>0 $
$ \Gamma (n) = \frac{1}{n} \Gamma (n+1), \,\, n \leq 0 $
- 감마함수 특징
- $ \alpha > 1$일 때, $ \Gamma(\alpha) = (\alpha - 1)\Gamma( \alpha -1) $
- 양의 정수 $n$에 대하여 $ \Gamma(n) = (n-1)! $
- $ \Gamma( \cfrac{1}{2} ) = \sqrt{ \pi } $
- $ \Gamma(1) = 1 $
- 감마함수 특징
- 감마분포 (Gamma distribution)
평균 $\lambda$인 포아송분포에서 한 사건이 발생한 후 $r$번째 사건이 발생할 때까지 시간에 대한 분포
> 감마분포 확률밀도함수
$$ X \sim Gam( r , \lambda ) $$
$$ f(x) = \cfrac{\lambda^r}{ \Gamma (r)} \times x^{r-1} \times e^{- \lambda x}, \;\;\, x, r, \lambda > 0 $$
여기서 $\lambda$는 포아송분포의 평균을 나타내는 척도모수(scale parameter)이고,
$r$은 형태모수(shape parameter)로 첫 번째 사건 발생 후, $r$번째 발생한 사건을 나타냅니다.
> 확률분포함수 조건
- $ \cfrac{\lambda^r}{ \Gamma (r)} \times x^{r-1} \times e^{- \lambda x} > 0 $
- $ \int_{0}^{\infty} \cfrac{\lambda^r}{ \Gamma (r)} \times x^{r-1} \times e^{- \lambda x} dx = 1 $
> 확률분포함수 특징
- $r=1$인 경우, 지수분포 $Exp(\lambda)$를 따름
- $r=2$인 경우, 카이제곱분포 $\chi^2(r)$ 따름
> 평균(기댓값), 분산, 표준편차
- 평균(기댓값) 유도
\begin{align*}
E(X) &= \int_{0}^{\infty} x \times \frac{ \lambda ^ {r}}{\Gamma (r)} x^{r-1} e^{- \lambda x} dx \\
&= \int_{0}^{\infty} \frac{\lambda^{r-1} \lambda}{\Gamma (r)} x^{r} e^{- \lambda x} \\
&= \frac{1}{\lambda \Gamma (r)} \times \int_{0}^{\infty} \lambda^{r} \lambda x^{r} e^{- \lambda x} dx \\
&= \frac{1}{\lambda \Gamma (r)} \times \int_{0}^{\infty} \left( \lambda x \right)^{r} e^{- \lambda x} \lambda dx \\
& Let, u = \lambda x \\
&= \frac{1}{\Gamma (r) \lambda} \times \int_{0}^{\infty} u^{r} e^{-u} du \\
&= \frac{1}{\Gamma (r) \lambda} \times \Gamma (r+1) \\
&= \frac{1}{\Gamma (r) \lambda} \times r \Gamma (r) \\
&= \frac{r}{\lambda}
\end{align*} - 분산 유도
$ E(X^2) - \left ( E(X) \right )^2 $으로 계산하겠습니다.
\begin{align*}
E(X^2)&= \int_{0}^{\infty} x^{2} \times \frac{\lambda^r}{\Gamma (r)} x^{r-1} e^{- \lambda x} dx \\
&= \int_{0}^{\infty} \frac{ \lambda^{r-1} \lambda}{ \Gamma (r)} x^{r} e^{- \lambda x} dx \\
&= \frac{1}{\Gamma(r) \lambda} \times \int_{0}^{\infty} \lambda^{r} \lambda x^{r+1} e^{- \lambda x} dx \\
& Let, u= \lambda x \\
&= \frac{1}{ \Gamma (r) \lambda} \times \int_{0}^{\infty} \frac{u^{r} e^{-u}}{\lambda} du \\
&= \frac{1}{ \Gamma (r) \lambda^2} \times \int_{0}^{\infty} u^{r} e^{-u} du \\
&= \frac{1}{ \Gamma (r) \lambda^2} \times \Gamma(r+2) \\
&= \frac{1}{\Gamma (r)} \times \frac{1}{\lambda^2} \times r(r+1) \Gamma (r) \\
&= \frac{r(r+1)}{\lambda^2}
\end{align*}
\begin{align*}
Var(X) &= \frac{r(r+1)}{\lambda^2} - \left(\frac{r}{\lambda} \right )^2 \\
&= \frac{r}{\lambda^2}
\end{align*} - 표준편차
$$ \sqrt{ \cfrac{r}{\lambda^2} } $$
> 그래프
$\lambda = 1.5 $으로 설정한 그래프입니다.
예제문제를 풀이해봅시다.
1시간 평균 2152명이 방문하는 기차역이 있습니다. 두명의 승객이 방문할 시간이 5분이상 기다릴 확률은 어떻게 될까요?
$ \mu = 2152/60 = 35.867 $
$ \lambda = 1/\mu = 0.0279 $
$r=2$ (두 명의 승객)
$ P(X>5) = \int_{5}^{\infty} \frac{0.0279^2}{\Gamma(2)} x^{2-1} \times e^{- 0.0279 x} dx = 0.9911406$
5분 이상 기다릴 확률은 약 0.99이네요.
3. 지수분포(Exponential distribution)
지수분포에 대해서 살펴보기 위해 포아송분포에 대한 개념이 필요합니다.
기억이 나지 않는다면, https://begin-stat.tistory.com/9?category=523978 으로 와주세요.
- 지수 분포(Uniform distribution)
하나의 사건이 발생한 후 다음 사건이 일어날 때 걸리는 시간에 대한 분포
쉽게 생각해볼까요?
어떤 사건의 발생 횟수가 포아송 분포를 따른다면, 사건 사이 걸리는 시간은 지수분포를 따른다는 것입니다.
> 확률분포함수 특징
- 기계 수명 분석시 사용
- 감마분포에서 shape parameter = 1인 경우의 분포
- 독립적으로 동일한 지수분포의 확률변수 합은 감마분포를 따름
- 무기억성(비기억성, 건망성)
어떤 특정 시점 $A$부터 $t$시점까지 그 사건이 일어나지 않았다고 가정한다면,
$t$시점 이후 $s$ 단위 시간동안 그 사건이 일어나지 않을 확률은
$A$시점부터 $s$ 단위 시간동안 그 사건이 일어나지 않을 확률과 같다.
$$ P \left[ X > x+y | X > x \right ] = P \left[ X > y \right ], \,\, x>0, y>0 $$
> 지수분포 확률밀도함수
$$ X \sim Exp (\lambda) $$
$$ f(x) = \lambda e^{- \lambda x}, \;\;\, x > 0, \lambda > 0 $$
> 확률분포함수 조건
- $ \lambda e^{- \lambda x}> 0 $
- $ \int_{R}^{} \lambda e^{- \lambda x} dx = 1 $
> 평균(기댓값), 분산, 표준편차
- 평균(기댓값) 유도
\begin{align*}
E(X) &= \int_{0}^{\infty} x \times \lambda e^{- \lambda x} dx \\
&= \lambda \times \int_{0}^{\infty} x e^{- \lambda x} \\
&= \lambda \times \left\{ \left [ -x \frac{1}{\lambda} e^{- \lambda} \right ]_{0}^{\infty} \right\} - int_{0}^{\infty} e^{- \lambda x} \times \left( - \frac{1}{\lambda} \right ) dx \\
&= \lambda \times \left\{ \left [ -x \frac{1}{\lambda} e^{-\lambda} \right ]_{0}^{\infty} - \left [ \frac{1}{ \lambda^{2}} e^{- \lambda x} \right ]_{0}^{\infty} \right\} \\
&= \lambda \times \frac{1}{\lambda^2} \\
&= \frac{1}{\lambda}
\end{align*} - 분산 유도
\begin{align}
Var(X) &= \int_{0}^{\infty} x^{2} \times \lambda e^{- \lambda x} dx - \mu^{2} \\
&= \lambda \times \int_{0}^{\infty} x^2 \times \lambda e^{- \lambda x} dx - \mu^2 \\
&= \lambda \times \left\{ \left [ x^2 \times - \frac{1}{\lambda} e^{- \lambda x} \right ]_{0}^{\infty} - \int_{0}^{\infty} 2x \times - \frac{1}{\lambda} e^{- \lambda x} dx \right \} \\
&= \lambda \times \left\{ \left [ - \frac{x^2}{\lambda} e^{- \lambda x} \right]_{0}^{\infty} + \frac{2}{\lambda} \int_{0}^{\infty} x e^{- \lambda x} dx \right\} - \mu^2 \\
&= \lambda \times \left\{ \left[ - \frac{x^{2}}{\lambda} e^{\lambda x}\right]_{0}^{\infty} + \frac{2}{\lambda}\left\{\left[x \times - \frac{1}{\lambda} e^{\lambda x}\right]_{0}^{\infty} - \int_{0}^{\infty} - \frac{1}{\lambda}e^{-\lambda x}dx \right\} \right\}-\mu^{2} \\
&= \lambda \times \frac{2}{\lambda} \times \frac{1}{\lambda^2} - \mu^{2} \\
&= \frac{2}{\lambda^2} - \left( \frac{1}{\lambda} \right)^2 \\
&= \frac{1}{\lambda^2}
\end{align} - 표준편차
$$ \sqrt{ \cfrac{1}{\lambda^2} } $$
> 그래프
$\lambda = 1 $인 그래프입니다.
예제문제를 풀이해봅시다.
1시간 평균 2152명이 방문하는 기차역이 있습니다. 첫 승객이 1시간만에 방문할 확률은 어떻게 될까요?
$ \mu = 2152/60 = 35.867 $
$ \lambda = 1/\mu = 0.0279 $
$ f(x) = \lambda exp \left( - \lambda \times t \right) $
$ \int_{0}^{1} \lambda exp \left( - lambda \times 1 \right) = 0.027 $
1시간만에 첫 승객이 방문할 확률은 0.027입니다.
4. 베타분포(Beta distribution)
베타분포에 대해 배우기 전, 감마함수와 베타함수에 대한 사전지식이 필요합니다.
- 베타함수
복소수 $\alpha, \beta$의 실수부분이 양수인 경우, 감마함수를 활용하여 정의되는 함수
$ \cfrac{ \Gamma (\alpha + \beta)}{ \Gamma ({ \alpha}{\beta}) } = \int_{0}^{1} x^{\alpha} (1-x)^{\beta - 1} $ - 불완전 베타함수
베타함수 식에서 상한값을 1이 아닌 임의의 상수로 정한 함수
$ f(x) = \int_{0}^{a} x^{ \alpha -1} (1-x)^{ \beta -1} dx, \,\, 0<a<1 $
- 베타분포 (Gamma distribution)
모수 $\alpha $와 $ \beta$에 따라 구간 [0,1]에서 정의되는 분포
> 확률분포함수 특징
- $ \alpha = 1, \beta = 1$인 경우 균일분포와 같다.
> 베타분포 확률밀도함수
$$ X \sim Beta( \alpha, \beta) $$
$$ f(x) = \cfrac{\Gamma (\alpha + \beta)}{\Gamma (\alpha) \Gamma (\beta)}x^{\alpha -1}(1-x)^{\beta -1}, \;\;\, \alpha, \beta > 0, 0<x<1 $$
> 확률분포함수 조건
- $ \cfrac{\Gamma (\alpha + \beta)}{\Gamma (\alpha) \Gamma (\beta)} x^{\alpha -1} (1-x)^{\beta -1} > 0 $
- $ \int_{R}^{} \cfrac{\Gamma (\alpha + \beta)}{\Gamma (\alpha) \Gamma (\beta)}x^{\alpha -1}(1-x)^{\beta -1} dx = 1 $
> 평균(기댓값), 분산, 표준편차
- 평균(기댓값) 유도
\begin{align}
E(X) &= \int_{0}^{1} x \times \cfrac{\Gamma (\alpha + \beta)}{ \Gamma (\alpha) \Gamma (\beta)} x^{\alpha -1} (1-x)^{\beta - 1} dx \\
&= \frac{\Gamma (\alpha + \beta) \Gamma (\alpha +1)}{\Gamma(\alpha) \Gamma(\alpha + \beta + 1)} \int_{0}^{1} \frac{\Gamma( \alpha + \beta + 1)}{\Gamma (\alpha + 1) \Gamma (\beta)} x^{(\alpha+1)-1} (1-x)^{\beta -1} dx \\
&= \frac{\Gamma (\alpha + \beta) \Gamma (\alpha +1)}{\Gamma(\alpha) \Gamma(\alpha + \beta + 1)} \\
&= \frac{ (\alpha + \beta -1)! \alpha !}{(\alpha -1)!(\alpha + \beta)!} \\
&= \frac{ \alpha}{\alpha + \beta}
\end{align} - 분산 유도
\begin{align*}
Var(X)&= \int_{0}^{1} x^{2} \times \cfrac{\Gamma (\alpha + \beta)}{\Gamma (\alpha) \Gamma (\beta)} x^{\alpha -1}(1-x)^{\beta -1} dx - \mu^2 \\
&= \frac{\Gamma (\alpha + \beta) \Gamma(\alpha +2)}{\Gamma (\alpha) \Gamma (\alpha + \beta + 2)} \int_{0}^{1} \frac{\Gamma (\alpha + \beta + 2)}{\Gamma (\alpha + 2) \Gamma (\beta)}x^{(\alpha +2)-1} (1-x)^{\beta -1} dx - \mu^2 \\
&= \frac{(\alpha + \beta -1)! (\alpha +1)!}{(\alpha -1)!(\alpha + \beta + 1)! } -\mu^2 \\
&= \frac{\alpha (\alpha + 1)}{(\alpha + \beta + 1)(\alpha + \beta)} - \left ( \frac{\alpha}{\alpha + \beta} \right )^2 \\
&= \frac{\alpha \beta}{(\alpha + \beta + 1)(\alpha + \beta)^2}
\end{align*} - 표준편차
$$ \sqrt{ \frac{\alpha \beta}{(\alpha + \beta + 1)(\alpha + \beta)^2} } $$
> 그래프
'균일분포', '감마분포', '지수분포', '베타분포'의 정의와 관계에 대해 설명드렸습니다.
이번 포스팅의 내용 역시 많아서 조금 걱정이 됩니다.
다음 포스팅부터는 와이블분포, 정규분포와 같이 연속형 분포에 추가로 더 알아보겠습니다😊
'생각보다 쉬운 통계학 > 수리통계학' 카테고리의 다른 글
[생각보다 쉬운 통계학] 3.분포 - 연속형 분포 (3) (0) | 2022.02.22 |
---|---|
[생각보다 쉬운 통계학] 3.분포 - 연속형 분포 (2) (0) | 2022.02.10 |
[생각보다 쉬운 통계학] 3.분포 - 이산형 분포 (2) (0) | 2022.01.16 |
[생각보다 쉬운 통계학] 3. 분포 - 이산형 분포 (1) (0) | 2022.01.10 |
[생각보다 쉬운 통계학] 2. 분포 관련 개념 정의 (2) (0) | 2022.01.01 |