첫번째 통계학 - 표본평균, 표본분산, 표본표준편차
Updated:
표본평균, 표본분산, 표본표준편차
간단하게 나마 통계학에 대한 포스팅을 시작하려 해요.
부족하겠지만 조금씩 보충해갈께요.
통계학의 정의와 분류
-
통계학 : 불확실하고 잘 알려져 있지 않은 사실과 대상에 대한 통계정보를 얻기 위해 이와 관련된 자료(data)를 수집하고, 그 자료를 요약 정리하여 해석하며, 의사결정을 위한 결론이나 일반성 등을 이끌어내는 데 필요한 이론과 방법을 과학적으로 제시하여 주는 학문.
-
기술통계학 : 자료를 정리하여 그림이나 표로 요약하거나 자료들의 수치값을 요약한 대표값이나 자료의 흩어진 형태(분포)와 변동의 크기 등을 구하는 분야.
-
추측통계학 : 통계적 모형과 구간을 설정하기도 하고 추측하기도 하며 어떤 기존의 사실에 대하여 가설을 세우고 이를 검정하고 예측하는 분야.
표본평균, 표본분산, 표본표준편차
- 평균에는 모평균과 표본평균이 있고 산술평균, 기하평균, 조화평균등이 있지만 나머지는 논외로 하고 지금은 표본평균중 산술평균에 대해서 얘기하려 한다. 모평균에 관한 얘기는 포스팅이 계속 된다면 더 뒤에서 얘기하려 한다.
- 표본평균
표본평균은 중심위치 측도 중에서 가장많이 사용되는 방법으로 관측값의 충합을 관측값의 개수로 나눈 것이다.
$\bar{x} = {x_1 + x_2 + \cdots + x_n \over n} = {1 \over n}\sum_{i=1}^n x_i$ - 중위수
평균은 모든 관측값이 반영되니깐 극단적으로 아주 크거나 작은 값에 영향을 많이 받아 때로는 잘못된 중심위치를 나타내기도 하는데 이때 사용할수 있는 것이 중위수이다.- 관측값의 갯수가 홀수라면, ${n+1 \over 1}$ 번째 관측값이다.
- 관측값의 갯수가 짝수라면, ${n \over 2}$번째 관측값과 ${n \over 2} + 1$번째 관측값의 평균이다.
- 표본평균
- 표본평균을 중심으로 각각의 관측값들이 얼마나 흩어져 있는지를 파악하기 위해서는 두 값의 차이를 계산하면 되는데 즉, $n$개의 표본자료를 $x_1, x_2, \cdots , x_n$이라 하고, 이들의 표본평균을 $\bar{x}$라고 하면 $(x_i - \bar{x})$의 값이 각각의 관측값이 표본평균을 중심으로 흩어진 정도를 나타내는 측도가 된다. 이를 편차(deviation)라고 부른다. 그러나 이들 편차의 합은 언제나 0이 되므로, 제곱합을 구한 후에 관측값의 개수에서 1을 뺀 값으로 나누게 되면 단 하나의 수치로 전체 관측값들이 평균을 중심으로 얼마나 흩어져 있는가를 나타낼 수 있게 되는데 이런 값을 표본분산이라고 부르고 $s^2$으로 표기한다.
- $n$개의 표본자료를 $x_1, x_2, \cdots , x_n$이라 하고, 이들 표본평균을 $\bar{x}$라고 하면 표본분산은 다음과 같다.
$s^2 = {1 \over n-1}\sum_{i=1}^n (x_i - \bar{x})^2$
- $n$개의 표본자료를 $x_1, x_2, \cdots , x_n$이라 하고, 이들 표본평균을 $\bar{x}$라고 하면 표본분산은 다음과 같다.
- 표본분산의 단위는 언제나 관측값의 측정 단위의 제곱이 되므로, 계산된 수치만으로는 흩어짐의 정도에 대한 크기를 가늠하기가 쉽지 않다. 따라서 표본분산의 양의 제곱근을 통해 관측값의 단위와 일치시키게 되는데, 이를 표본표준편차라고 부르고 $s$로 표기한다.
- $n$개의 표본자료 $x_1, x_2, \cdots , x_n$의 분산을 $s^2$이라 하면, 표본표준편차는 다음과 같다.
$s = \sqrt{s^2}$
- $n$개의 표본자료 $x_1, x_2, \cdots , x_n$의 분산을 $s^2$이라 하면, 표본표준편차는 다음과 같다.
오늘은 정말 쉬운 개념부터 시작 해보았고, 과연 제가 이 주제의 포스팅을 이어 나갈수 있는지에 대해서 알아보기 위함 이였어요.
Mathjax문법도 좀 어렵고 이 주제의 포스팅의 순서는 어떻게 해야 하나 그런 생각도 들고 여러가지 생각이 드는 포스팅이네요.
혹여나 보시는 분이 계시고 앞으로 제가 계속 이어 나간다면 발전해나가는 주제가 되도록 노력해볼께요.
그리고 jupyter notebook에서의 포스팅이 좀 더 매끄러워 진다면 jupyter notebook을 이용해서 이해하기 쉽게 해보도록 할게요.
감사합니다.
Leave a comment