2009년 10월 11일 일요일

모수와 통계량

통계를 공부하는데 있어 왕 기본적 요소인 모수와 통계량에 대해서 생각해 보기로 한다.

통계는 크게 집단의 특성을 수리적으로 보이는 기술(descriptive)통계와 그 통계량을 근거로 모집단의 특성을 추정하는 추리통계(statistical inference)로 나누어 볼 수 있다. 사실 통계학을 굳이 공부하지 않더라도 기술통계에 대해서는 어느 정도 알고 있고, 또 실 생활에서도 광범위하게 사용된다. 결국 통계를 굳이 더 배우는 목적은 추리통계라고 할 수 있을 것이다.

다시 한번 반복하면 추리통계는 표본의 특성을 근거로 하여 알고자 하는 모집단의 특성에 대해 밝히려는 것이다. 그렇다면 조사를 통해 밝혀진 것을 근거로 어떻게 그렇게 할 수 있는가?

통계학에서 말하는 것 중 중요한 것은, 모집단의 분포가 어떻게 생겨먹었건 간에 반복된 표본추출 과정에서 나타나는 표본의 특성은 모집단의 특성을 중심으로 수렴하는 현상을 보인다는 것이다. 이를 중심극한정리(Central Limit Theorem)이라 하며, 통계적 추론의 근거가 된다. 만약 그렇지 않다면 표본추출이 어떤 의미가 있겠으며, 그런 뻘짓을 할 이유가 어디에 있겠는가?

어쨌건, 통계학에서 말하는 모집단의 특성은 모수(parameter)라고 하며, 그리스 문자로 표기한다. 모평균을 나타내는 뮤, 모집단의 분산을 나타내는 시그마 등을 생각해 보자. 반면 표본의 특성을 나타내는 기호는 모두 영문자를 사용한다. 표본의 평균을 나타내는 x바, 표본의 분산을 나타내는 s등이 그러하다. 여기서 한 가지 - 서구에서 그리스에 대한 향수 내지는 동경이 여기서도 보인다는 것은 주목할 만하다고 하겠다.

아무튼 모수는 일종의 진리(전수조사를 해야 나타나는)이며, 이 값은 변하지 않는다. 하지만 우리가 실제 구할 수 있는 값은 추출해 놓은 표본의 특성이며, 이는 추출과정을 반복할 때마다 변화한다. 그리고 우리가 통계를 하는 목적은 관찰값을 바탕으로 모수값을 최대한 근접하게 찾아내려는 것이다.

댓글 1개: