[생각보다 쉬운 통계학] 2. 분포 관련 개념 정의 (1)

😀 이번 포스팅의 목표는 
1. 이산형·연속형 분포에서 평균 및 분산 구하기
2. 공분산 정의 이해

앞서 살펴보았던 실험 정의, 기억하시나요?

어떠한 현상의 관찰 결과를 얻기 위한 과정으로 알려드렸는데요!

 

이번 포스팅의 핵심적인 내용, 확률 변수는 여기서 시작됩니다~!

그럼 시작해보겠습니다☺

 


1. 확률 분포

  • 확률 변수(random variable) : 실험 결과를 표현하는 수치적 양
  • 확률 분포(probability distribution) : 확률 변수가 특정한 값을 가질 확률을 나타내는 함수

확률 분포,, 갑자기 정의 덩그러니 제시하니 조금 어렵죠?

 

지금부터 우리는 실수 범위에서 임의로 값을 선정하여 추가하는 실험을 해보겠습니다.

현재 우리는 임의의 값 -1.28 / 1.34 / 0.47 / 0.1 / 1.77 이 있고, 

6번째 숫자를 추가할 예정입니다.

어떤 값을 선정해야 6개의 값 모음이 같은 특징을 가질까요?

5개의 값에 대한 함수를 만들고, 그 함수를 따르는 숫자 중 임의 선택하면 되겠죠?!

 

여기서 우리가 만든 함수는 확률분포이고, 선정된 임의의 값은 확률변수입니다.

 

그럼 계속 더 진행해보겠습니다.

 

  • 이산형 확률변수 : 확률변수 $X$의 범위가 유한 또는 가산 무한(셀 수 있는 무한)으로 불연속적인 확률변수
  • 연속형 확률변수 : 확률변수 $X$의 범위가 무한으로 연속적인 확률변수

혹시 느낌 오시나요?

이산형 확률변수의 함수 이산형 확률분포 (확률 밀도 함수),

연속형 확률변수의 함수 연속형 확률분포

 

이산형·연속형 확률분포의 특징을 살펴보기 전에

몇 가지 정의를 먼저 살펴보겠습니다.

확률 질량 함수(probability mass function; $pmf$) : 이산형 확률변수의 분포를 나타내는 함수

  • 조건 
    1. 모든 실수 $x$에 대하여 0 $ \leq $ $f(x)$
    2. $ \sum_{i=1}^\infty f(x_{i}) $ = 1
    3. $ \sum_{x : a\leq x \leq b}^{}f(x)=P(a \leq X \leq b) $
  • 그래프 예시
  • 평균(기댓값), 분산, 표준편차
    • 평균(기댓값) : $ E(X)=\sum_{x}^{}x_{i}f(x_{i}) $
    • 분산(자료퍼짐 정도) : $ Var(X) = E\left [ \left ( X-E(X)  \right )^2 \right ]=\sum_{x}^{}\left [ x-E(X) \right ]^2f(x) $
    • 표준편차 : $ \sigma = \sqrt{Var(X)}  $

확률 밀도 함수(probability density function; $pdf$) : 연속형 확률변수의 분포를 나타내는 함수

  • 조건 
    1. 모든 실수 $x$에 대하여 0 $ \leq $ $f(x)$
    2. $ \int_{-\infty}^{\infty} f(x)dx = 1 $
    3. $ \int_{a}^{b} f(x)\, dx = P(a \leq X \leq b), (-\infty < a < b < \infty) $
  • 그래프 예시 
  • 평균(기댓값), 분산, 표준편차
    • 평균(기댓값) : $ \int_{-\infty}^{\infty} xf(x)dx $
    • 분산 : $ Var(X) = E\left [ \left ( X-E(X)  \right )^2 \right ]=\int_{-\infty}^{\infty}\left [ x-E(X) \right ]^2f(x) $
    • 표준편차 : $ \sigma = \sqrt{Var(X)}  $

 

연속 확률 분포 (Continuous probability distribution) : 확률밀도함수 이용해서 표현할 수 있는 분포

  • 조건
    1. $ f(x) $ 는 적분 가능한 함수
    2. $ f(x) \geq 0, \, x \in R$
    3. $ \int_{R}^{}f(x)dx = 1 $ 
    4. $ P(X \in A) = \int_{A}^{}f(x)dx $
  • 특징
    1. 특정 값을 가진 확률변수의 확률 값 계산 불가, 확률변수가 주어진 구간 내에 있을 확률 계산 가능
    2. $ P(a<X<b) = P(a \leq X<b)  = P(a<X \leq b)  = P(a \leq X \leq b) $ 성립

 

누적 확률 분포 함수(Cumulative distribution function; $cdf$)  
 : 주어진 확률 변수 $X$ 가 특정 값 $x$ 이하인 모든 값을 가지는 확률

$$ F(x) \leq P(X \leq x) $$

  • 필요충분조건 
    1. $ \displaystyle \lim_{x \to - \infty} F(x) = 0$
    2. $ \displaystyle \lim_{x \to \infty}F(x) = 1 $
    3. $ \displaystyle \lim_{h \to 0^{+}}F(x+h) = F(x) $
    4. $ a<b $이면, $F(a) \leq F(b) $

  • 그래프 예시 

이산형 누적분포함수 그래프
연속형 누적분포함수 그래프

 


마지막으로

조금 전에 살펴본 기댓값과 분산의 성질 한번 짚고 넘어가겠습니다!


> 기댓값
의 성질

  1. 상수 $a$에 대하여 $ E(a) = a$
  2. 상수 $a, b$에 대하여 $ E(aX + b) = aE(X)+b$
  3. 확률변수 $X$와 $Y$가 독립이면, $ E(XY) = E(X) \times E(Y) $
  4. $f_{1}(X) \leq f_{2}(X)$이면, $ E[f_{1}(X)] \leq E[f_{2}(X)]$

> 분산의 성질

  1. 상수 $a, b$에 대하여 $ E(aX + b) = a^2 E(X)$
  2. 확률변수 $X_{1}, X_{2}, X_{3}, \cdot \cdot \cdot $이 독립이면, $ Var\left ( \sum_{i=1}^{n}X_{i} \right )=\sum_{i=1}^{n}Var(X_{i}) $


기댓값과 분산을 이용한다면 공분산을 정의할 수 있습니다.

 

  • 공분산(Covariance) : $X$와 $Y$가 선형적으로 함께 움직이는 정도의 측도
    $ Cov(X,Y) = E\left [ (X-E(X)) \right (Y-E(Y))] = E(XY)-E(X)E(Y) $

> 공분산의 성질

  1. $ Cov(X,Y) = Cov(Y, X)$
  2. $ Cov(X,X) = Var(X) $
  3. 상수 $a,b,c,d$에 대하여 $ Cov(aX+b, cY+d) = ac Cov(X,Y)$

 

 


'분포'와 관련된 정의와 기본 성질, 이해되셨나요?

이번 포스팅을 여기서 마무리하고, 다음 포스팅에서 '결합 확률 밀도 함수', '주변 확률 밀도 함수', '조건부 확률 밀도 함수'에 대해서 진행하도록 하겠습니다😊

 

 

참고자료 )

 - 송성주, 전명식. (2021). 수리통계학. 자유아카데미

 - 김우철. (2021). 개정판 수리통계학. 민영사

TAGS.

Comments