2009년 10월 11일 일요일

모수와 통계량

통계를 공부하는데 있어 왕 기본적 요소인 모수와 통계량에 대해서 생각해 보기로 한다.

통계는 크게 집단의 특성을 수리적으로 보이는 기술(descriptive)통계와 그 통계량을 근거로 모집단의 특성을 추정하는 추리통계(statistical inference)로 나누어 볼 수 있다. 사실 통계학을 굳이 공부하지 않더라도 기술통계에 대해서는 어느 정도 알고 있고, 또 실 생활에서도 광범위하게 사용된다. 결국 통계를 굳이 더 배우는 목적은 추리통계라고 할 수 있을 것이다.

다시 한번 반복하면 추리통계는 표본의 특성을 근거로 하여 알고자 하는 모집단의 특성에 대해 밝히려는 것이다. 그렇다면 조사를 통해 밝혀진 것을 근거로 어떻게 그렇게 할 수 있는가?

통계학에서 말하는 것 중 중요한 것은, 모집단의 분포가 어떻게 생겨먹었건 간에 반복된 표본추출 과정에서 나타나는 표본의 특성은 모집단의 특성을 중심으로 수렴하는 현상을 보인다는 것이다. 이를 중심극한정리(Central Limit Theorem)이라 하며, 통계적 추론의 근거가 된다. 만약 그렇지 않다면 표본추출이 어떤 의미가 있겠으며, 그런 뻘짓을 할 이유가 어디에 있겠는가?

어쨌건, 통계학에서 말하는 모집단의 특성은 모수(parameter)라고 하며, 그리스 문자로 표기한다. 모평균을 나타내는 뮤, 모집단의 분산을 나타내는 시그마 등을 생각해 보자. 반면 표본의 특성을 나타내는 기호는 모두 영문자를 사용한다. 표본의 평균을 나타내는 x바, 표본의 분산을 나타내는 s등이 그러하다. 여기서 한 가지 - 서구에서 그리스에 대한 향수 내지는 동경이 여기서도 보인다는 것은 주목할 만하다고 하겠다.

아무튼 모수는 일종의 진리(전수조사를 해야 나타나는)이며, 이 값은 변하지 않는다. 하지만 우리가 실제 구할 수 있는 값은 추출해 놓은 표본의 특성이며, 이는 추출과정을 반복할 때마다 변화한다. 그리고 우리가 통계를 하는 목적은 관찰값을 바탕으로 모수값을 최대한 근접하게 찾아내려는 것이다.

우도의 개념과 최대우도추정법(Maximum Likelihood Estimation)

우도의 개념을 최대한 단순하게(물론 문제가 있겠지만) 정의하면 확률과 정확하게 대칭되는 것이라 생각하면 맞을 것 같다. 다시 말하면 확률에서는 모비율이 특정되어 있고 불변인데 그 위에서 관찰된 값이 나오는 반면(동전을 던질 때 앞면이 나올 확률은 일반적으로 1/2이며 그것을 바탕으로 특정 관찰이 나올 확률을 계산한다), 우도의 개념에서는 역으로 관찰치는 고정되어 있고, 그것이 가장 잘 그럴 듯하게 나오는 모수값을 찾아나가는 것이다.

이를 2차원 그래프로 나타내면 확률분포곡선에서 특정한 포인트를 찍어서 확률을 계산하는 확률과는 정반대로, 우도의 개념에서는 특정한 관찰값이 이미 주어져 있고, 확률분포곡선 자체를 움직이면서 그 관찰값이 가장 잘 나오는 위치를 찾는 것이다. 약간 어거지로 끼워맞추는 구석이 있는 것이 아니냐 할 수 있겠지만, 사실 잘 생각하면 일반적으로 써먹는 회귀분석 역시 자의적인 우격다짐이긴 마찬가지다. OLS(최소자승법) 역시 Sum of Square를 최소화하는 것이 가장 좋은 회귀직선이라 정한 것 뿐이지, 그게 정말 맞다고 누가 장담할 수 있나? 그렇게 하기로 한 것 뿐이지. 아니 - 넓게 말하면 최소자승법 역시 하나의 최대우도추정이라고 할 수도 있는 것이다.

그렇다면 왜 이런 개떡같은 방법이 나온 걸까. 당연한 이야기지만 일반적인 회귀분석이 갖고 있는 문제점과 한계에 대응하기 위한 것도 일부 있고, 이것이 갖고 있는 최대의 문제점인 계산 문제가 컴퓨터의 도움으로 해결되었기 때문이기도 하다. 잘 생각해보면 최대우도추정법의 전략은 컴퓨터의 계산방식과 유사하다. 특정한 확률분포를 사용해 계산하여 우도를 구하고, 그 분포를 약간 이동시켜 또 우도를 구하고... 반복하다가 그 우도가 최대로 결정되는 지점에서 멈추는 것이다. 어쩐지 프로그래밍 기초에서 나오는 것과 유사하지 않나?

그리고 최대우도 추정의 가장 큰 장점 중 하나는 확률분포의 종류만 정해지면, 계산방식은 모두 동일하다는 것이다. 특히 일반적인 방식에서 각각 모두 다른 표준오차의 추정 역시 (매우 복잡하지만) 같은 방식으로서 계산되며, 표현될 수 있다는 것 - 이는 결국 확률분포만 확보해 표현할 수 있다면 - 일반적인 routine으로 처리할 수 있다는 가능성을 시사한다. 아울러 최대우도추정은 특정한 어떤 분포가 아니라 그런 방식을 사용하는 분석 방법을 통칭하는 일종의 전략(strategy) 같은 것으로 이해하면 되겠다.