[생각보다 쉬운 통계학] 2. 분포 관련 개념 정의 (1)
😀 이번 포스팅의 목표는
1. 이산형·연속형 분포에서 평균 및 분산 구하기
2. 공분산 정의 이해
앞서 살펴보았던 실험 정의, 기억하시나요?
어떠한 현상의 관찰 결과를 얻기 위한 과정으로 알려드렸는데요!
이번 포스팅의 핵심적인 내용, 확률 변수는 여기서 시작됩니다~!
그럼 시작해보겠습니다☺
1. 확률 분포
- 확률 변수(random variable) : 실험 결과를 표현하는 수치적 양
- 확률 분포(probability distribution) : 확률 변수가 특정한 값을 가질 확률을 나타내는 함수
확률 분포,, 갑자기 정의 덩그러니 제시하니 조금 어렵죠?
지금부터 우리는 실수 범위에서 임의로 값을 선정하여 추가하는 실험을 해보겠습니다.
현재 우리는 임의의 값 -1.28 / 1.34 / 0.47 / 0.1 / 1.77 이 있고,
6번째 숫자를 추가할 예정입니다.
어떤 값을 선정해야 6개의 값 모음이 같은 특징을 가질까요?
5개의 값에 대한 함수를 만들고, 그 함수를 따르는 숫자 중 임의 선택하면 되겠죠?!
여기서 우리가 만든 함수는 확률분포이고, 선정된 임의의 값은 확률변수입니다.
그럼 계속 더 진행해보겠습니다.
- 이산형 확률변수 : 확률변수 $X$의 범위가 유한 또는 가산 무한(셀 수 있는 무한)으로 불연속적인 확률변수
- 연속형 확률변수 : 확률변수 $X$의 범위가 무한으로 연속적인 확률변수
혹시 느낌 오시나요?
이산형 확률변수의 함수 → 이산형 확률분포 (확률 밀도 함수),
연속형 확률변수의 함수 → 연속형 확률분포
이산형·연속형 확률분포의 특징을 살펴보기 전에
몇 가지 정의를 먼저 살펴보겠습니다.
확률 질량 함수(probability mass function; $pmf$) : 이산형 확률변수의 분포를 나타내는 함수
- 조건
- 모든 실수 $x$에 대하여 0 $ \leq $ $f(x)$
- $ \sum_{i=1}^\infty f(x_{i}) $ = 1
- $ \sum_{x : a\leq x \leq b}^{}f(x)=P(a \leq X \leq b) $
- 그래프 예시
- 평균(기댓값), 분산, 표준편차
- 평균(기댓값) : $ E(X)=\sum_{x}^{}x_{i}f(x_{i}) $
- 분산(자료퍼짐 정도) : $ Var(X) = E\left [ \left ( X-E(X) \right )^2 \right ]=\sum_{x}^{}\left [ x-E(X) \right ]^2f(x) $
- 표준편차 : $ \sigma = \sqrt{Var(X)} $
확률 밀도 함수(probability density function; $pdf$) : 연속형 확률변수의 분포를 나타내는 함수
- 조건
- 모든 실수 $x$에 대하여 0 $ \leq $ $f(x)$
- $ \int_{-\infty}^{\infty} f(x)dx = 1 $
- $ \int_{a}^{b} f(x)\, dx = P(a \leq X \leq b), (-\infty < a < b < \infty) $
- 그래프 예시
- 평균(기댓값), 분산, 표준편차
- 평균(기댓값) : $ \int_{-\infty}^{\infty} xf(x)dx $
- 분산 : $ Var(X) = E\left [ \left ( X-E(X) \right )^2 \right ]=\int_{-\infty}^{\infty}\left [ x-E(X) \right ]^2f(x) $
- 표준편차 : $ \sigma = \sqrt{Var(X)} $
연속 확률 분포 (Continuous probability distribution) : 확률밀도함수 이용해서 표현할 수 있는 분포
- 조건
- $ f(x) $ 는 적분 가능한 함수
- $ f(x) \geq 0, \, x \in R$
- $ \int_{R}^{}f(x)dx = 1 $
- $ P(X \in A) = \int_{A}^{}f(x)dx $
- 특징
- 특정 값을 가진 확률변수의 확률 값 계산 불가, 확률변수가 주어진 구간 내에 있을 확률 계산 가능
- $ P(a<X<b) = P(a \leq X<b) = P(a<X \leq b) = P(a \leq X \leq b) $ 성립
누적 확률 분포 함수(Cumulative distribution function; $cdf$)
: 주어진 확률 변수 $X$ 가 특정 값 $x$ 이하인 모든 값을 가지는 확률
$$ F(x) \leq P(X \leq x) $$
- 필요충분조건
- $ \displaystyle \lim_{x \to - \infty} F(x) = 0$
- $ \displaystyle \lim_{x \to \infty}F(x) = 1 $
- $ \displaystyle \lim_{h \to 0^{+}}F(x+h) = F(x) $
- $ a<b $이면, $F(a) \leq F(b) $
- 그래프 예시
마지막으로
조금 전에 살펴본 기댓값과 분산의 성질 한번 짚고 넘어가겠습니다!
> 기댓값의 성질
- 상수 $a$에 대하여 $ E(a) = a$
- 상수 $a, b$에 대하여 $ E(aX + b) = aE(X)+b$
- 확률변수 $X$와 $Y$가 독립이면, $ E(XY) = E(X) \times E(Y) $
- $f_{1}(X) \leq f_{2}(X)$이면, $ E[f_{1}(X)] \leq E[f_{2}(X)]$
> 분산의 성질
- 상수 $a, b$에 대하여 $ E(aX + b) = a^2 E(X)$
- 확률변수 $X_{1}, X_{2}, X_{3}, \cdot \cdot \cdot $이 독립이면, $ Var\left ( \sum_{i=1}^{n}X_{i} \right )=\sum_{i=1}^{n}Var(X_{i}) $
기댓값과 분산을 이용한다면 공분산을 정의할 수 있습니다.
- 공분산(Covariance) : $X$와 $Y$가 선형적으로 함께 움직이는 정도의 측도
$ Cov(X,Y) = E\left [ (X-E(X)) \right (Y-E(Y))] = E(XY)-E(X)E(Y) $
> 공분산의 성질
- $ Cov(X,Y) = Cov(Y, X)$
- $ Cov(X,X) = Var(X) $
- 상수 $a,b,c,d$에 대하여 $ Cov(aX+b, cY+d) = ac Cov(X,Y)$
'분포'와 관련된 정의와 기본 성질, 이해되셨나요?
이번 포스팅을 여기서 마무리하고, 다음 포스팅에서 '결합 확률 밀도 함수', '주변 확률 밀도 함수', '조건부 확률 밀도 함수'에 대해서 진행하도록 하겠습니다😊
참고자료 )
- 송성주, 전명식. (2021). 수리통계학. 자유아카데미
- 김우철. (2021). 개정판 수리통계학. 민영사
'생각보다 쉬운 통계학 > 수리통계학' 카테고리의 다른 글
[생각보다 쉬운 통계학] 3. 분포 - 이산형 분포 (1) (0) | 2022.01.10 |
---|---|
[생각보다 쉬운 통계학] 2. 분포 관련 개념 정의 (2) (0) | 2022.01.01 |
[생각보다 쉬운 통계학] 1. 기본 개념 정의 (2) (0) | 2021.12.20 |
[생각보다 쉬운 통계학] 1. 기본 개념 정의 (1) (0) | 2021.12.18 |
생각보다 쉬운 통계학 (0) | 2021.12.13 |