첫번째 통계학 - 이산확률변수, 확률분포함수
Updated:
이산확률변수, 확률분포함수
사건의 확률
확률(probability)이란 어떠한 실험(experiment)의 결과에 대해 확신하는 정도를 나타낸 수치적 척도(measure)이다. 통계학에서는 실험을 출현 가능한 모든 결과들 중에서 오직 한가지 결과만이 나타나는 행의를 일컫는다. 이때, 특정 실험에서 나올 수 있는 모든 결과들의 집합을 표본공간(sample space)라고 하며, 일반적으로 $S$로 나타낸다. 예를 들어, 3개의 공정한 동전을 던지는 행위는 실험이라고 할 수 있으며,이에 대한 표본공간은 다음과 같다.
S = {HHH, THH, HTH, HHT, TTH, THT, HTT, TTT}
더불어 사건 A가 발생할 확률은 $P(A)$로 나타내며, 다음과 같이 정의된다.
$P(A)$ = ${사건 A에 속하는 결과의 수} \over {표본공간에 속하는 결과의수}$
확률은 그 정의에 의해 언제나 0에서 1사이의 값만을 가지게 된다.
만약 3개의 공정한 동전을 던져 앞면이 1회 나오는 경우를 사건A라 정의하면, 사건 A는 A = {HTT, THT, TTH}가 되며 3개의 공정한 동전을 던져 앞면이 1회 나올 확률은 $P(A)$ = ${3 \over 8}$과 같이 계산된다.
확률변수
표본공간의 크기가 커질수록 표본공간을 정의하기는 쉽지가 않다. 이럴 때 이용할 수 있는 것이 확률변수(random variable)이다. 확률변수는 표본공간에 속하는 각각의 결과들에 대해 실수값을 대응시켜주는 함수를 의미한다. 예를들어 확률변수 $X$를 3개의 공정한 동전을 던졌을 때 앞면이 나온횟수라고 정의한다면, 확률변수 $X$는 0(회), 1(회), 2(회), 3(회)의 4개의 값을 가질 수 있으며 이에 대응되는 사건들은 다음과 같다.
확률변수 $X$의 값 | X의 값에 대응되는 사건 |
---|---|
0 | {TTT} |
1 | {HTT, THT, TTH} |
2 | {HHT, HTH, THH} |
3 | {HHH} |
즉, 확률변수는 각각의 실험 결과들을 수치적으로 표현하는 방법이라 할 수 있다. 이때, 일반적으로 확률변수 $X, Y, \cdots$와 같이 대문자로 나타내고, 확률변수가 가지는 특정값은 $x, y, \cdots$와 같이 소문자로 나타낸다.
확률변수는 가질 수 있는 값에 따라 이산확률변수(discrete random variable)와 연속확률변수(continuous random variable)로 구분한다.
이산확률변수의 확률분포함수
3개의 공정한 동전을 던졌을 때 앞면이 나온 횟수를 확률변수 $X$라 하면, 확률변수 $X$는 앞에서 확인한 바와 같이 4개의 값을 가질 수 있으므로 이산확률변수이며 각각의 값을 가질 때의 확률은 다음과 같다.
$x$ | $0\quad1\quad2\quad3$ | 합계 |
---|---|---|
$P(X=x)$ | $\frac{1}{8}\quad\frac{3}{8}\quad\frac{3}{8}\quad\frac{1}{8}$ | 1 |
확률변수가 가지는 값과 그 값을 가질 확률을 정해주는 규칙 또는 관계를 확률분포(probability distribution)라고 부른다. 이러한 확률분포는 언제나 나름대로 일련의 규칙을 가지게 되므로, 함수를 이용하여 표현 가능하다. 이를 확률분포함수(probability distribution function)라고 한다.
이산확률변수는 가질 수 있는 값들을 일일이 지칭할 수 있기 때문에 이산확률변수의 확률분포함수 $f(x)=P(X=x)$로 표현한다.
이산확률분포함수의 성질
- 모든 $x$값에 대해 $0\le f(x)\le1$
- $\sum_x f(x)=1$
확률변수의 기대값과 표준편차
확률변수가 가질 수 있는 값들에 대한 확률분포 상의 중심위치를 그 확률변수의 기대값(expected value)이라고 한다. 일반적으로 확률변수 $X$의 기대값은 $E(X)$로 나타내며, 이산확률변수의 기대값은 다음과 같이 계산할 수 있다.
$E(X)=\sum_x xf(x)$
기대값이 의미하는 평균은 첫번째 통계학 - 표본평균, 표본분산, 표본표준편차에서 배운 표본평균과 다르다. 표본평균은 단기적 실험 결과에 대한 평균을 의미하는 반면, 기대값은 장기적 실험 결과에 대한 평균을 의미한다.
예를 들어 2개의 공정한 동전을 던지는 실험을 생각해 보자. 이 실험을 실제로 10회 반복한 경우, 각각의 실험에서 앞면이 나온 횟수를 기록하면 다음과 같다.
실험 번호 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
앞면이 나온 횟수 | 0 | 1 | 1 | 2 | 0 | 1 | 1 | 0 | 1 | 2 |
따라서 총 10회의 실험에서 2개의 공정한 동전에 대해 앞면이 나온 평균 횟수(표본평균)은 $\bar{x}=\frac{1}{10}\sum_{i=1}^{10} x_i=\frac{0+1+1+2+0+1+1+0+1+2}{10}=0.9$ 와 같이 표본평균은 10회의 실험을 할 때 마다 다르게 계산될 수 있다. 이처럼 기대값도 동일한 실험을 무수히 반복했을 때의 평균 즉, 확률분포 상의 중심위치를 의미한다. 따라서 공정한 동전 2개를 던졌을 때 앞면이 나온 횟수를 확률변수 $X$라 하면, 확률변수 $X$에 대한 확률분포는 다음과 같다.
$x$ | 0 | 1 | 2 |
---|---|---|---|
$P(X=x)$ | $\frac{1}{4}$ | $\frac{2}{4}$ | $\frac{1}{4}$ |
즉, 공정한 동전 2개를 던진 경우 앞면이 나온 횟수에 대한 기대값은 다음과 같이 계산된다.
$E(X)=\sum_x xf(x)=0\times\frac{1}{4}+1\times\frac{2}{4}+2\times\frac{1}{4}=1$
기대값은 어떠한 실험을 행할 셩우 나올 수 있는 모든 결과들에 대한 평균이므로 이는 모집단 전체에 대한 평균 즉, 모평균(population mean)과 같다. 일반적으로 통계학에서는 모평균을 $\mu$로 나타낸다.
기대값의 성질
- $a$와 $b$는 상수 이고 $X$는 임의의 확률변수라 할 때
Ⅰ. $E(X)=\mu$
Ⅱ. $E(a)=a$
Ⅲ. $E(aX)=aE(X)=a\mu$
Ⅳ. $E(aX\pm b)=E(aX)\pm E(b)=a\mu \pm b$
확률변수의 기대값은 중심위치 즉, 모평균을 나타내므로, 이러한 기대값을 중심으로 확률변수가 가질 수 있는 값의 흩어짐을 파악하기 위해서는 분산과 표준편차를 이용할 수 있다. 확률변수 $X$의 분산은 $Var(X)$로 나타내며, 이산확률변수의 분산은 다음과 같이 계산 할 수 있다.
$Var(X)=\sum_x (x-\mu)^2f(x)$
확률변수 $X$의 표준편차는 분산의 양의 제곱근이므로 다음과 같이 계산 할 수 있다.
$\sqrt{Var(X)}= \sqrt{\sum_x (x-\mu)^2f(x)}$
확률변수의 분산을 좀 더 수리적으로 표현하자면 다음과 같이 표현할 수 있다.
$Var(X)=E[(X-E(X))^2]$
확률변수 X가 가질 수 있는 값에서 기대값을 뺀 후 제곱한 값들에 대해 다시 기대값을 계산한 것이다. 기대값 $E(X)=\mu$는 상수이므로 기대값의 성질에 의해 다음과 같이 표현할 수 이다.
$Var(X)=E[(X-E(X))^2]$
= $E[X^2-2\mu X+\mu^2]$
= $E(X^2)-2\mu E(X)+E(\mu^2)$
= $E(X^2)-\mu^2$
= $E(X^2)-E(X)^2$
확률변수의 기대값이 모평균을 나타내듯이 분산은 모집단의 분산 즉, 모분산을 나타내며 기호로는 $\sigma^2$으로 표현한다.
분산의 성질
- $a$와 $b$는 상수이고 $X$는 임의의 확률변수라 할 때,
Ⅰ. $Var(X)=\sigma^2$
Ⅱ. $Var(a)=0$
Ⅲ. $Var(aX)=a^2Var(X)=a^2 \sigma^2$
Ⅳ. $Var(aX \pm b)=Var(aX)=a^2 \sigma^2$
다음 포스팅에서는 이항분포에 대해서 살펴보려 한다. 이산확률분포에서는 가장 활용도가 높은 확률 분포이므로 꼼꼼하게 포스팅 준비를 해야 겠다.
Leave a comment