첫번째 통계학 - 이항분포

Updated:

Mathmatics

이항분포


이산형 확률변수가 가지는 확률분포 중에서 앞으로 계속 공부해나갈 Machine Learning / Deep Learning 에서 가장 활용도가 높은 확률분포는 이항분포(binomial distribution)이다.

베르누이 시행

우선, 이항분포를 배우기에 앞서 우선적으로 베르누이 시행(Bernoulli trial)에 대해 알아보자. 베르누이 시행이란 단, 1회의 실험을 지칭하며, 그 특징은 다음과 같다.

베르누이 시행의 특징
- 각 시행은 성공(success, $S$)과 실패(fail, $F$)의 두가지 결과만을 갖는다.
- 각 시행에서 성공할 확률은 $P(S)=p$, 실패할 확률은 $P(F)=1-p$로 매 시행마다 동일하다.
- 각 시행은 상호 독립으로 각각의 시행이 다른 시행의 결과에 영향을 미치지 않는다.

이항분포

위의 베르누이 시행을 $n$번 반복한 경우 성공 횟수를 확률변수 $X$라 하면, 이 확률변수 $X$의 확률분포는 이항분포를 따르게 된다. 성공확률이 $p$인 베르누이 시행을 $n$번 시행한 경우 성공 횟수를 나타내는 확률변수 $X$의 확률분포함수는 다음과 같다.

$f(x)=P(X=x)={}_n \mathrm{C}_k p^x(1-p)^{n-x},\quad x=0, 1,\cdots,n$

예를 들어, 공정한 동전 3개를 던졌을 때 앞면이 나온 횟수를 확률변수 $X$라 하면, 확률변수 $X$에 대한 확률분포는 아래와 같음을 첫번째 통계학 - 이산확률변수, 확률분포함수의 포스팅에서 확인한 바 있다.

$x$ $0\quad1\quad2\quad3$ 합계
$P(X=x)$ $\frac{1}{8}\quad\frac{3}{8}\quad\frac{3}{8}\quad\frac{1}{8}$ 1

공정한 동전 3개를 던지는 실험은 성공확률$(p)$이 0.5인 베르누이 시행을 $n=3$번 반복한 경우이므로, 앞면이 나온 횟수(성공횟수)를 확률변수 $X$라 하면, 확률변수 $X$는 이항분포를 따르게 된다.
또한 공정한 동전 3개를 던져 앞면이 1번 나오려면 뒷면이 2번나오는 사건이 동시에 발생하여야 한다. 따라서 앞면이 나올 확률 $p$와 뒷면이 나올 확률$(1-p)$를 이용하여 기호화하면 다음과 같다.

$p \times (1-p) \times (1-p)=p^1(1-p)^{3-1}$

이러한 사건은 3개의 동전 중에서 1개의 동전만 앞면이 나오는 경우의 수 즉, ${}_3 \mathrm{C}_1 =3$가지의 경우가 있다. 따라서 공정한 동전 3개를 던져 앞면이 1번 나올 확률은 이항분포의 확률분포함수를 이용하여 다음과 같이 계산할 수 있다.

$f(1)=P(X=1)={}_3 \mathrm{C}_1 \times (\frac{1}{2})^1 \times (1- \frac{1}{2})^{3-1}=\frac{3}{8}$

일반적으로 임의의 이산형 확률변수 $X$가 $n$번 시행에서 성공확률이 $p$인 이항분포를 따른다는 표현은 다음과 같이 나타낸다.

$X \sim Bin(n, p)$

$n$번의 시행에서 성공확률이 $p$인 이항분포를 따르는 이산형 확률변수 $X$의 기대값과 분산은 다음과 같다.

이항분포의 기대값과 분산
성공 횟수를 나타내는 확률변수 $X$가 $X \sim Bin(n, p)$일 때,
Ⅰ. $E(X) = np$
Ⅱ. $Var(X) = np(1-p)$

예를 들어, 공정한 동전 100개를 던졌을 때 앞면이 나온 횟수를 확률변수 $X$라고 하면, 확률변수 $X$는 시행 횟수가 $n=100$이고 성공확률이 $p=0.5$인 이항분포를 따르므로 다음과 같이 표현할 수 있고 기대값과 분산, 표준편차는 각각 다음과 같이 계산할 수 있다.

  • $X \sim Bin(100, 0.5)$
  • $E(X)=np=100 \times 0.5 = 50$
  • $Var(X)=np(1-p)=100 \times 0.5 \times 0.5 =25$
  • $\sqrt{Var(X)}=\sqrt{np(1-p)}=\sqrt{25}=5$

실제로 공정한 동전 100개를 던졌을 때 앞면이 나온 횟수를 파악해보면 $50 \pm 5$회 즉, 45회 부터 55회 사이가 흔히 나타나게 됨을 알 수 있다.

이와 같이 이항분포를 배우기에 앞서 베르누이 시행을 배웠고 이항분포도 함께 알아 봤다. 다음 포스팅에서는 연속확률변수의 확률분포함수를 알아 보겠다.

Leave a comment