첫번째 통계학 - 이산확률변수, 확률분포함수

Updated:

Mathmatics

이산확률변수, 확률분포함수


사건의 확률

확률(probability)이란 어떠한 실험(experiment)의 결과에 대해 확신하는 정도를 나타낸 수치적 척도(measure)이다. 통계학에서는 실험을 출현 가능한 모든 결과들 중에서 오직 한가지 결과만이 나타나는 행의를 일컫는다. 이때, 특정 실험에서 나올 수 있는 모든 결과들의 집합을 표본공간(sample space)라고 하며, 일반적으로 $S$로 나타낸다. 예를 들어, 3개의 공정한 동전을 던지는 행위는 실험이라고 할 수 있으며,이에 대한 표본공간은 다음과 같다.

S = {HHH, THH, HTH, HHT, TTH, THT, HTT, TTT}

더불어 사건 A가 발생할 확률은 $P(A)$로 나타내며, 다음과 같이 정의된다.

$P(A)$ = ${사건 A에 속하는 결과의 수} \over {표본공간에 속하는 결과의수}$

확률은 그 정의에 의해 언제나 0에서 1사이의 값만을 가지게 된다.
만약 3개의 공정한 동전을 던져 앞면이 1회 나오는 경우를 사건A라 정의하면, 사건 A는 A = {HTT, THT, TTH}가 되며 3개의 공정한 동전을 던져 앞면이 1회 나올 확률은 $P(A)$ = ${3 \over 8}$과 같이 계산된다.

확률변수

표본공간의 크기가 커질수록 표본공간을 정의하기는 쉽지가 않다. 이럴 때 이용할 수 있는 것이 확률변수(random variable)이다. 확률변수는 표본공간에 속하는 각각의 결과들에 대해 실수값을 대응시켜주는 함수를 의미한다. 예를들어 확률변수 $X$를 3개의 공정한 동전을 던졌을 때 앞면이 나온횟수라고 정의한다면, 확률변수 $X$는 0(회), 1(회), 2(회), 3(회)의 4개의 값을 가질 수 있으며 이에 대응되는 사건들은 다음과 같다.

확률변수 $X$의 값 X의 값에 대응되는 사건
0 {TTT}
1 {HTT, THT, TTH}
2 {HHT, HTH, THH}
3 {HHH}

즉, 확률변수는 각각의 실험 결과들을 수치적으로 표현하는 방법이라 할 수 있다. 이때, 일반적으로 확률변수 $X, Y, \cdots$와 같이 대문자로 나타내고, 확률변수가 가지는 특정값은 $x, y, \cdots$와 같이 소문자로 나타낸다.
확률변수는 가질 수 있는 값에 따라 이산확률변수(discrete random variable)와 연속확률변수(continuous random variable)로 구분한다.

이산확률변수의 확률분포함수

3개의 공정한 동전을 던졌을 때 앞면이 나온 횟수를 확률변수 $X$라 하면, 확률변수 $X$는 앞에서 확인한 바와 같이 4개의 값을 가질 수 있으므로 이산확률변수이며 각각의 값을 가질 때의 확률은 다음과 같다.

$x$ $0\quad1\quad2\quad3$ 합계
$P(X=x)$ $\frac{1}{8}\quad\frac{3}{8}\quad\frac{3}{8}\quad\frac{1}{8}$ 1

확률변수가 가지는 값과 그 값을 가질 확률을 정해주는 규칙 또는 관계를 확률분포(probability distribution)라고 부른다. 이러한 확률분포는 언제나 나름대로 일련의 규칙을 가지게 되므로, 함수를 이용하여 표현 가능하다. 이를 확률분포함수(probability distribution function)라고 한다.

이산확률변수는 가질 수 있는 값들을 일일이 지칭할 수 있기 때문에 이산확률변수의 확률분포함수 $f(x)=P(X=x)$로 표현한다.

이산확률분포함수의 성질
- 모든 $x$값에 대해 $0\le f(x)\le1$
- $\sum_x f(x)=1$

확률변수의 기대값과 표준편차

확률변수가 가질 수 있는 값들에 대한 확률분포 상의 중심위치를 그 확률변수의 기대값(expected value)이라고 한다. 일반적으로 확률변수 $X$의 기대값은 $E(X)$로 나타내며, 이산확률변수의 기대값은 다음과 같이 계산할 수 있다.

$E(X)=\sum_x xf(x)$

기대값이 의미하는 평균은 첫번째 통계학 - 표본평균, 표본분산, 표본표준편차에서 배운 표본평균과 다르다. 표본평균은 단기적 실험 결과에 대한 평균을 의미하는 반면, 기대값은 장기적 실험 결과에 대한 평균을 의미한다.
예를 들어 2개의 공정한 동전을 던지는 실험을 생각해 보자. 이 실험을 실제로 10회 반복한 경우, 각각의 실험에서 앞면이 나온 횟수를 기록하면 다음과 같다.

실험 번호 1 2 3 4 5 6 7 8 9 10
앞면이 나온 횟수 0 1 1 2 0 1 1 0 1 2

따라서 총 10회의 실험에서 2개의 공정한 동전에 대해 앞면이 나온 평균 횟수(표본평균)은 $\bar{x}=\frac{1}{10}\sum_{i=1}^{10} x_i=\frac{0+1+1+2+0+1+1+0+1+2}{10}=0.9$ 와 같이 표본평균은 10회의 실험을 할 때 마다 다르게 계산될 수 있다. 이처럼 기대값도 동일한 실험을 무수히 반복했을 때의 평균 즉, 확률분포 상의 중심위치를 의미한다. 따라서 공정한 동전 2개를 던졌을 때 앞면이 나온 횟수를 확률변수 $X$라 하면, 확률변수 $X$에 대한 확률분포는 다음과 같다.

$x$ 0 1 2
$P(X=x)$ $\frac{1}{4}$ $\frac{2}{4}$ $\frac{1}{4}$

즉, 공정한 동전 2개를 던진 경우 앞면이 나온 횟수에 대한 기대값은 다음과 같이 계산된다.

$E(X)=\sum_x xf(x)=0\times\frac{1}{4}+1\times\frac{2}{4}+2\times\frac{1}{4}=1$

기대값은 어떠한 실험을 행할 셩우 나올 수 있는 모든 결과들에 대한 평균이므로 이는 모집단 전체에 대한 평균 즉, 모평균(population mean)과 같다. 일반적으로 통계학에서는 모평균을 $\mu$로 나타낸다.

기대값의 성질
- $a$와 $b$는 상수 이고 $X$는 임의의 확률변수라 할 때
Ⅰ. $E(X)=\mu$
Ⅱ. $E(a)=a$
Ⅲ. $E(aX)=aE(X)=a\mu$
Ⅳ. $E(aX\pm b)=E(aX)\pm E(b)=a\mu \pm b$

확률변수의 기대값은 중심위치 즉, 모평균을 나타내므로, 이러한 기대값을 중심으로 확률변수가 가질 수 있는 값의 흩어짐을 파악하기 위해서는 분산과 표준편차를 이용할 수 있다. 확률변수 $X$의 분산은 $Var(X)$로 나타내며, 이산확률변수의 분산은 다음과 같이 계산 할 수 있다.

$Var(X)=\sum_x (x-\mu)^2f(x)$

확률변수 $X$의 표준편차는 분산의 양의 제곱근이므로 다음과 같이 계산 할 수 있다.

$\sqrt{Var(X)}= \sqrt{\sum_x (x-\mu)^2f(x)}$

확률변수의 분산을 좀 더 수리적으로 표현하자면 다음과 같이 표현할 수 있다.

$Var(X)=E[(X-E(X))^2]$

확률변수 X가 가질 수 있는 값에서 기대값을 뺀 후 제곱한 값들에 대해 다시 기대값을 계산한 것이다. 기대값 $E(X)=\mu$는 상수이므로 기대값의 성질에 의해 다음과 같이 표현할 수 이다.

$Var(X)=E[(X-E(X))^2]$
= $E[X^2-2\mu X+\mu^2]$
= $E(X^2)-2\mu E(X)+E(\mu^2)$
= $E(X^2)-\mu^2$
= $E(X^2)-E(X)^2$

확률변수의 기대값이 모평균을 나타내듯이 분산은 모집단의 분산 즉, 모분산을 나타내며 기호로는 $\sigma^2$으로 표현한다.

분산의 성질
- $a$와 $b$는 상수이고 $X$는 임의의 확률변수라 할 때,
Ⅰ. $Var(X)=\sigma^2$
Ⅱ. $Var(a)=0$
Ⅲ. $Var(aX)=a^2Var(X)=a^2 \sigma^2$
Ⅳ. $Var(aX \pm b)=Var(aX)=a^2 \sigma^2$

다음 포스팅에서는 이항분포에 대해서 살펴보려 한다. 이산확률분포에서는 가장 활용도가 높은 확률 분포이므로 꼼꼼하게 포스팅 준비를 해야 겠다.

Leave a comment