2009년 10월 11일 일요일

모수와 통계량

통계를 공부하는데 있어 왕 기본적 요소인 모수와 통계량에 대해서 생각해 보기로 한다.

통계는 크게 집단의 특성을 수리적으로 보이는 기술(descriptive)통계와 그 통계량을 근거로 모집단의 특성을 추정하는 추리통계(statistical inference)로 나누어 볼 수 있다. 사실 통계학을 굳이 공부하지 않더라도 기술통계에 대해서는 어느 정도 알고 있고, 또 실 생활에서도 광범위하게 사용된다. 결국 통계를 굳이 더 배우는 목적은 추리통계라고 할 수 있을 것이다.

다시 한번 반복하면 추리통계는 표본의 특성을 근거로 하여 알고자 하는 모집단의 특성에 대해 밝히려는 것이다. 그렇다면 조사를 통해 밝혀진 것을 근거로 어떻게 그렇게 할 수 있는가?

통계학에서 말하는 것 중 중요한 것은, 모집단의 분포가 어떻게 생겨먹었건 간에 반복된 표본추출 과정에서 나타나는 표본의 특성은 모집단의 특성을 중심으로 수렴하는 현상을 보인다는 것이다. 이를 중심극한정리(Central Limit Theorem)이라 하며, 통계적 추론의 근거가 된다. 만약 그렇지 않다면 표본추출이 어떤 의미가 있겠으며, 그런 뻘짓을 할 이유가 어디에 있겠는가?

어쨌건, 통계학에서 말하는 모집단의 특성은 모수(parameter)라고 하며, 그리스 문자로 표기한다. 모평균을 나타내는 뮤, 모집단의 분산을 나타내는 시그마 등을 생각해 보자. 반면 표본의 특성을 나타내는 기호는 모두 영문자를 사용한다. 표본의 평균을 나타내는 x바, 표본의 분산을 나타내는 s등이 그러하다. 여기서 한 가지 - 서구에서 그리스에 대한 향수 내지는 동경이 여기서도 보인다는 것은 주목할 만하다고 하겠다.

아무튼 모수는 일종의 진리(전수조사를 해야 나타나는)이며, 이 값은 변하지 않는다. 하지만 우리가 실제 구할 수 있는 값은 추출해 놓은 표본의 특성이며, 이는 추출과정을 반복할 때마다 변화한다. 그리고 우리가 통계를 하는 목적은 관찰값을 바탕으로 모수값을 최대한 근접하게 찾아내려는 것이다.

우도의 개념과 최대우도추정법(Maximum Likelihood Estimation)

우도의 개념을 최대한 단순하게(물론 문제가 있겠지만) 정의하면 확률과 정확하게 대칭되는 것이라 생각하면 맞을 것 같다. 다시 말하면 확률에서는 모비율이 특정되어 있고 불변인데 그 위에서 관찰된 값이 나오는 반면(동전을 던질 때 앞면이 나올 확률은 일반적으로 1/2이며 그것을 바탕으로 특정 관찰이 나올 확률을 계산한다), 우도의 개념에서는 역으로 관찰치는 고정되어 있고, 그것이 가장 잘 그럴 듯하게 나오는 모수값을 찾아나가는 것이다.

이를 2차원 그래프로 나타내면 확률분포곡선에서 특정한 포인트를 찍어서 확률을 계산하는 확률과는 정반대로, 우도의 개념에서는 특정한 관찰값이 이미 주어져 있고, 확률분포곡선 자체를 움직이면서 그 관찰값이 가장 잘 나오는 위치를 찾는 것이다. 약간 어거지로 끼워맞추는 구석이 있는 것이 아니냐 할 수 있겠지만, 사실 잘 생각하면 일반적으로 써먹는 회귀분석 역시 자의적인 우격다짐이긴 마찬가지다. OLS(최소자승법) 역시 Sum of Square를 최소화하는 것이 가장 좋은 회귀직선이라 정한 것 뿐이지, 그게 정말 맞다고 누가 장담할 수 있나? 그렇게 하기로 한 것 뿐이지. 아니 - 넓게 말하면 최소자승법 역시 하나의 최대우도추정이라고 할 수도 있는 것이다.

그렇다면 왜 이런 개떡같은 방법이 나온 걸까. 당연한 이야기지만 일반적인 회귀분석이 갖고 있는 문제점과 한계에 대응하기 위한 것도 일부 있고, 이것이 갖고 있는 최대의 문제점인 계산 문제가 컴퓨터의 도움으로 해결되었기 때문이기도 하다. 잘 생각해보면 최대우도추정법의 전략은 컴퓨터의 계산방식과 유사하다. 특정한 확률분포를 사용해 계산하여 우도를 구하고, 그 분포를 약간 이동시켜 또 우도를 구하고... 반복하다가 그 우도가 최대로 결정되는 지점에서 멈추는 것이다. 어쩐지 프로그래밍 기초에서 나오는 것과 유사하지 않나?

그리고 최대우도 추정의 가장 큰 장점 중 하나는 확률분포의 종류만 정해지면, 계산방식은 모두 동일하다는 것이다. 특히 일반적인 방식에서 각각 모두 다른 표준오차의 추정 역시 (매우 복잡하지만) 같은 방식으로서 계산되며, 표현될 수 있다는 것 - 이는 결국 확률분포만 확보해 표현할 수 있다면 - 일반적인 routine으로 처리할 수 있다는 가능성을 시사한다. 아울러 최대우도추정은 특정한 어떤 분포가 아니라 그런 방식을 사용하는 분석 방법을 통칭하는 일종의 전략(strategy) 같은 것으로 이해하면 되겠다.

2009년 7월 20일 월요일

Stata 11 곧 출시

통계 프로그램 중 개인적으로 R과 함께 배우고 싶은 프로그램인 - stata 11버전이 곧 나올 예정입니다.



학교에서 라이센스받지 못한 탓에, stata 10을 잠깐 만져본 것에 불과합니다만, 가볍고 빠르며, 다양한 통계분석이 가능했던 것으로 기억합니다. 결과물도 상당히 깔끔했는데 말이죠...

아무튼 한번쯤 구입해보고 싶긴 한데, 그놈의 가격이 문젭니다. 흐음...

2009년 7월 3일 금요일

재정적자 요인분석

이번 학기(2009년 봄학기)에 써야 할 페이퍼가 모두 두 개인데, 하나는 계량분석 과목에서 통계 기법을 사용하는 페이퍼(주제에는 제한 없음), 나머지는 행정이론사 과목에서 쓰는 연구 Proposal... 그 중에서 계량분석 과목 페이퍼를 만들면서 생각한 것들과 느낀 점들을 적어보려 한다.

 

지난 6월 23일 제출한 계량분석 텀 페이퍼 - 과제다 시험이다 해서 바쁜 와중에 페이퍼까지 써야 하는지라 정신이 하나도 없었다. 그리고 이 페이퍼의 목적이 뭔가 특별한 것을 발견하기 위한 것이라기보다는 그저 한 학기 동안 열심히(-_-;;) 배운 통계 기법들을 사용한 페이퍼를 만들어 보는 것에 있다는 조언도 크게 한 몫을 했고...

 

해서 겨우 선택한 주제가(아마 2주쯤 전일 것이다), 다른 과목에서 배웠던 미국 연방적자 결정요인에 대한 정치경제학적 분석 모델을 사용해 한국 데이터를 분석해 의미를 발견해 보는 것이었다. 생각보다는 통계분석 결과가 잘 나왔기 때문에 나름 만족했다는...


독립변수로서 통합재정수지를 사용하였고, 종속변수로서는 GDP대비 누적 재정적자 %point, 국회 의석배분구조를 통한 정치적 힘 변수(직접 분류하여 코딩), 선거 실시 여부(더미), 정치적 이데올로기(더미) 등을 사용하였다.


아무튼 느낀 점이라면... 선행연구가 있었고, 이론적 기반이 탄탄했기 때문에 망정이지, 아니었다면 이도저도 아닌 쓰레기만 늘릴 뻔했다는 것이다. 이 연구를 발전시키는 것도 괜찮겠지만, 그러려면 한국 예산결정과정의 구조와 dynamics, 그리고 정치적인 것까지 폭넓은 이해가 요구되는지라...




P.S. 손발이 오그라드는... 페이퍼를 보고 싶으시다면 개인적으로 연락 주시길 바란다. 업로드할 수도 있지만 아무래도 부끄럽다. -_-;;

 

사회현상의 이해

사회현상을 어떻게 이해할 것인가에 관한 논의는 크게 두 줄기로 갈라서 볼 수 있다. 바로 객관적 이해(the objectivisit approach)와 주관적 이해(the subjectivisit approach)가 그것이다. 간단하게 보면, 객관적으로 사회현상을 이해하려고 하는 입장에서는 우리가 연구하는 객관적인 실체가 있어 그것을 연구한다는 것이고, 주관적인 이해 방법은 세상의 모든 것이 그것을 보는 사람에 따라 다르게 재구성된다는 이야기이다.

이 두 큰 줄기를 세부적으로 분류하면...

the subjective-objective dimension for understanding social phenomena

주관적 이해 객관적 이해
명목론(Norminalism) 존재론 실재론(Realism)
反실증주의(Anti-positivism) 인식론 실증주의(Positivism)
주의(主意)론(Voluntarism) 인간관 결정론(Determinism)
사례 서술적(Ideographic) 방법론 일반적인 법칙 추구(nomothetic)

몇가지 첨언.

- 객관적 이해에서는 관찰할 대상이 외부에 객관적으로 실재한다고 생각하지만, 주관적 이해에서는 객관적으로 실재하는 것은 없으며, 인간이 이름붙이는 것에 불과하다고 본다.

- 객관적으로 사회현상을 이해하는 실증주의는, 콩뜨(August Comte)까지 거슬러 올라간다. 일반적으로 적용될 수 있는 이론화를 추구하며, 귀납의 논리를 활용한다. 반면, 주관적 이해는 객관적, 중립적 이해라는 것이 애초에 불가능한 것이고, 참여자 내지는 관찰자의 입장에서 이해하는 것이라 본다.

- 객관적 이해를 통해 보는 인간은 결정되는 대로 행동하는 존재이다. 반면 주관적 이해는 행위자의 내적, 외적 동기와 자발성을 중시한다. 상식적으로는 주관적인 이해가 끌리지만, 최근 신경과학, 인간 두뇌에 관한 연구를 보면 과연 전적으로 결정론을 무시할 수 있을까?

- 객관적 이해에서는 통일된 방법론, 기법을 통해 사회과학 역시 자연과학과 비슷한 법칙을 만들 수 있다고 생각한다. 그러나 주관적 이해에서는 애초 그런 것이 불가능하다고 본다.

- 사회과학을 주도하는 것은 객관적 실증주의인 듯하다(개인적인 생각).

2009년 6월 14일 일요일

왜 공부해야 할까?

왜 공부해야 할까? - 이런 물음에 대한 답변은 참 많지만, 막상 와닿는 것이 없다. 정말 좋아서 공부하는 호학(好學)하는 사람들은 사실 이런 질문이 필요없을 것이다. 그냥 좋으니까 하는 거니까. 하지만 나는 그렇지 않은, 공부 스트레스를 겪고 있는 범인(凡人)인 관계로 - 뭔가 다른 이유를 찾아 내 자신을 납득시켜야 할지 모르겠다.

이런 답은 어떨까? 잘 먹고 잘 살기 위해서, 학벌사회 대한민국, 넉넉한 것은 사람 뿐이라는 대한민국에서 살아남는 길은 치열한 경쟁에서 남을 밟고 일어서는 것 뿐이기 때문에 공부를 해야 한다 - 좋다. 매우 솔직해서 맘에 든다. 고상한 척 이야기하는 것보다 이런 솔직한 대답이 더 와 닿는다. 만약 그렇지 않다면 왜 많은 사람들이 미친듯이 돈을 써가면서 학원에 다니고, 과외를 받고, 사회에 나가서도 꾸역꾸역 책상 앞에 앉겠는가?

비단 경쟁에서 승리하기 위해서라는 냉정한 이야기를 들이밀지 않더라도, 뭔가 주워들어 알고 있으면 인생을 사는데 도움이 되는 것 같다. 인간의 삶을 행복으로 가기 위한 하나의 여정으로 본다면 - 중간중간 우리는 수많은 선택의 기로에 (원하건 그렇지 않건) 서게 된다. 그 선택 상황에서 정보를 안다는 것과 모른다는 것은 선택의 질을 가르는 결정적 요인이 되지 않을까? 물론 인간의 힘으로 안 되는 일도 널리고 널렸겠지만, 최소한 사람으로서 할 일은 다 하고 나서 운을 바라는 것이 순리에도 맞을 것이다.

지도를 통해 무언가 알고 목적지를 찾아가는 것과 덮어놓고 가면서 시행착오를 겪어 가며 목적지를 찾아가는 것은 그 시간과 노력에 있어 차이가 많이 난다. 공부 역시 그런 것이 아닐까? 남들이 쌓아놓은 경험과 지혜 - 비록 교과서에 나와 있지 않은 사소한 것들이라도 - 배워서 내 삶을 보다 풍요롭게 만들 수 있다면, 그깟 공부 - 힘들어도 해볼만 하지 않을까?

2009년 5월 29일 금요일

Mixsh 등록

메타블로그 서비스인, Mixsh에 이 블로그를 등록합니다.(2009-05-29)

CY/Uui8Xu83qPgDADOcpZF0y/m0E5nMG43lvHGwylIg=

R이 너무 어렵다구요? R commander를 써보세요!

무료인 것에 반해 과분할 정도로 강력한 기능을 갖고 있는 통계 프로그램 R, 하지만 그 인터페이스는 매우 불친절합니다. 물론 도움말이 자세하게 있고, 또 인터넷에 R에 대해 설명해 놓은 사이트가 많긴 하지만, 일일이 명령어를 입력해 넣어야 답을 보여주니, 초보자들은 막막할 따름입니다.

요즘같이 GUI가 일반화된 현실에서는 참...(옛 추억들이 새록새록 떠오르는군요) 물론 익숙해지면 오히려 메뉴를 통한 접근보다 더 신속하고 세세하게 작업할 수 있지만, 익숙해질때까지는 다분 혼란스럽고 막막합니다.

하지만 R commander를 사용하면 SPSS나 STATA, Minitab과 같이 메뉴에서 간단히 통계 분석 방법을 고르고, 대화상자에서 옵션을 조절하는 등 편리하게 작업할 수 있습니다.

1. 설치
R commander는 쉽게 설치할 수 있고, 역시나 공짜입니다. 프롬프트 상태에서

install.package(Rcmdr, dependencies=T)

를 입력해도 되고, 메뉴에서 Package Installer를 통한 설치도 가능합니다.
패키지 Rcmdr을 설치하면 됩니다(의존성 체크하고)

2. R commander 실행
프롬프트 상태에서 다음 명령으로 실행하면 됩니다.

library(Rcmdr)

Mac OS X에서는 R commander 구동 시 X11위에서 실행됩니다.

일반적인 통계 작업은 R commander에서 다 할 수 있고, 플러그인을 사용하면 기능을 확장할 수 있습니다.

2009년 5월 27일 수요일

맥에서 사용할 수 있는 통계 프로그램들

요즘 사용해보고 있는 통계 프로그램 중에서 Mac OS X에서 사용할 수 있는 것들에 대해 적어 봅니다.

1. PASW(구 SPSS) Statistics 17
특히 사회과학 쪽에서 널리 사용되고 있는 통계 프로그램으로, 윈도우, 맥, 리눅스 환경을 지원합니다. SPSS 홈페이지에서 체험판(윈도우용 21일, 맥용 30일)을 다운로드받을 수 있습니다.

하지만 몇 번 사용해본 결론으로는 별로 추천하고 싶지 않습니다. 특히 맥 환경에서는요.

우선 다른 프로그램에 비해 겁나게 무겁고, 분석기능 역시 많이 제한되어 있습니다. 제공하는 기능에 비해 가격도 매우 높습니다(기본 Base 이외에 추가 기능이 필요하면 별도로 추가해야 하는 구조). 사회과학에 특화되어 있으며, 기본적으로 메뉴 방식을 사용하기 때문에 쉽고 편리하다고 하지만 - 어쨌든 비추천입니다.


2. Stata 10.1
64비트 플랫폼을 지원하는 stata, 실행 속도도 경쾌할 뿐만 아니라, 기능도 강력합니다. 윈도우, 맥, 유닉스 플랫폼을 지원합니다.
Screenshot from Official Site

본래 대화형(프롬프트 상태에서 명령을 입력하는 방식) 체제를 택하고 있지만, 메뉴를 통한 분석도 가능하니 약간만 배운다면 기본적인 통계분석은 별 문제없이 수행할 수 있을 것입니다. 잠깐 만져봤을 뿐이지만, 아주 인상적인 프로그램입니다.


3. R
가장 추천하고 싶은 프로그램입니다. 무료이면서 강력합니다. 어지간한 것은 다 됩니다. 데이터 역시 자유롭게 읽어들이고(SAS, SPSS, minitab, csv, txt...), 저장 역시 자유롭습니다. 설치에는 X11(Mac OS 설치 시 선택할 수 있으며, 별도로 다운받아 설치할 수 있습니다)이 필요하고, 64비트를 지원하지만, 아직 실험적인 수준에 있습니다.


대화형으로 명령어를 사용자가 직접 입력하는 방식으로 되어 있습니다. 특히 기본적인 GUI에서는 메뉴에 의한 분석을 제공하지 않으므로, 매우 불친절한 편이죠. 다만 R commander를 사용하면 다른 통계프로그램처럼 메뉴를 통해 편하게 사용할 수 있습니다.

R 커맨더를 쓰려면, 패키지 Rcmdr을 설치하면 됩니다(의존성 체크하고)

솔직히 SPSS보다는 R쪽이 보다 유용하고 가볍고, 쓸모가 많았습니다. 특히 그래프 등의 작업을 할 때, 맥 특유의 Quartz를 활용한 화려한 그래픽은 다른 프로그램과 차별화되는 부분이죠(이에 비하면 SPSS의 그래픽 기능은 조악하다고 할까요?)

R은 윈도우, 맥, 리눅스 플랫폼을 공식적으로 지원하며, 여기서 다운로드받을 수 있습니다.

R의 사용법을 배울 수 있는 유용한 사이트를 하나 소개하면,

In the beginning

뭐든지 처음 시작하는 것이 어렵습니다. 지난 2007년 1월 말에 티스토리에서 첫번째 블로그를 시작할 때도 한참을 고민고민하다 겨우 스타트를 끊을 수 있었고, 이번 텍스트큐브 블로그 역시 가입한지 한참이 지나서야 겨우 첫번째 포스팅을 작성하고 있습니다. 뭐 솔직히 지금(2009년 5월 21일 새벽) 끄적거리고 있는 이 내용이 언제 올라갈지는 저도 모르겠구요.

이 블로그는 잡학을 집결하는 블로그가 될 것 같습니다. 제가 공부하고 있는 전공지식부터 시작해서, 전혀 도움이 될 것 같지 않은 자잘한 내용까지 - 제가 기억해 둘 만하다 싶은 내용을 나름대로 정리해서 모아 볼 요량입니다. 수익 - 아직까지는 광고 같은 것을 달고 싶은 생각이 없지만, 나중에 또 모르죠. 인기가 좀 붙는다면 또 혹시나 하고 하나 붙여 볼런지도?(수익사업(?)에 대해서는 특별히 거부감을 갖지는 않습니다만, 적어도 목표와 수단이 전도되는 것은 좀 그렇지 않나 하는 생각입니다. 어디까지나 보너스로 생각해야지, 돈을 위해서 자극적인 글을 난무하는 것은 문제가 분명 있죠.)

아무튼 - 배워서 남주는 블로그가 되도록 노력해볼 생각입니다!