2010년 1월 26일 화요일

이번 워크샵 발표 페이퍼

이번주 금요일-토요일, 1박 2일 일정으로 가는 워크샵 때 발표하기 위해 오늘까지 삽질을 거듭하며 수정한 페이퍼. 읽어보시고 코멘트 주시는 것은 진심으로 환영하지만, 다른 용도로 사용하기 위해서 멋대로 퍼가는 것은 절대 금지. 만약 문의하실 것이 있으시면 연락 부탁드립니다.

<별도의 사유가 있어 삭제합니다>

제목: 위계적 선형 모형(Hierarchical Linear Model)을 적용한 사회적 자본 구성요소 간의 관계 분석

2009년 10월 11일 일요일

모수와 통계량

통계를 공부하는데 있어 왕 기본적 요소인 모수와 통계량에 대해서 생각해 보기로 한다.

통계는 크게 집단의 특성을 수리적으로 보이는 기술(descriptive)통계와 그 통계량을 근거로 모집단의 특성을 추정하는 추리통계(statistical inference)로 나누어 볼 수 있다. 사실 통계학을 굳이 공부하지 않더라도 기술통계에 대해서는 어느 정도 알고 있고, 또 실 생활에서도 광범위하게 사용된다. 결국 통계를 굳이 더 배우는 목적은 추리통계라고 할 수 있을 것이다.

다시 한번 반복하면 추리통계는 표본의 특성을 근거로 하여 알고자 하는 모집단의 특성에 대해 밝히려는 것이다. 그렇다면 조사를 통해 밝혀진 것을 근거로 어떻게 그렇게 할 수 있는가?

통계학에서 말하는 것 중 중요한 것은, 모집단의 분포가 어떻게 생겨먹었건 간에 반복된 표본추출 과정에서 나타나는 표본의 특성은 모집단의 특성을 중심으로 수렴하는 현상을 보인다는 것이다. 이를 중심극한정리(Central Limit Theorem)이라 하며, 통계적 추론의 근거가 된다. 만약 그렇지 않다면 표본추출이 어떤 의미가 있겠으며, 그런 뻘짓을 할 이유가 어디에 있겠는가?

어쨌건, 통계학에서 말하는 모집단의 특성은 모수(parameter)라고 하며, 그리스 문자로 표기한다. 모평균을 나타내는 뮤, 모집단의 분산을 나타내는 시그마 등을 생각해 보자. 반면 표본의 특성을 나타내는 기호는 모두 영문자를 사용한다. 표본의 평균을 나타내는 x바, 표본의 분산을 나타내는 s등이 그러하다. 여기서 한 가지 - 서구에서 그리스에 대한 향수 내지는 동경이 여기서도 보인다는 것은 주목할 만하다고 하겠다.

아무튼 모수는 일종의 진리(전수조사를 해야 나타나는)이며, 이 값은 변하지 않는다. 하지만 우리가 실제 구할 수 있는 값은 추출해 놓은 표본의 특성이며, 이는 추출과정을 반복할 때마다 변화한다. 그리고 우리가 통계를 하는 목적은 관찰값을 바탕으로 모수값을 최대한 근접하게 찾아내려는 것이다.

우도의 개념과 최대우도추정법(Maximum Likelihood Estimation)

우도의 개념을 최대한 단순하게(물론 문제가 있겠지만) 정의하면 확률과 정확하게 대칭되는 것이라 생각하면 맞을 것 같다. 다시 말하면 확률에서는 모비율이 특정되어 있고 불변인데 그 위에서 관찰된 값이 나오는 반면(동전을 던질 때 앞면이 나올 확률은 일반적으로 1/2이며 그것을 바탕으로 특정 관찰이 나올 확률을 계산한다), 우도의 개념에서는 역으로 관찰치는 고정되어 있고, 그것이 가장 잘 그럴 듯하게 나오는 모수값을 찾아나가는 것이다.

이를 2차원 그래프로 나타내면 확률분포곡선에서 특정한 포인트를 찍어서 확률을 계산하는 확률과는 정반대로, 우도의 개념에서는 특정한 관찰값이 이미 주어져 있고, 확률분포곡선 자체를 움직이면서 그 관찰값이 가장 잘 나오는 위치를 찾는 것이다. 약간 어거지로 끼워맞추는 구석이 있는 것이 아니냐 할 수 있겠지만, 사실 잘 생각하면 일반적으로 써먹는 회귀분석 역시 자의적인 우격다짐이긴 마찬가지다. OLS(최소자승법) 역시 Sum of Square를 최소화하는 것이 가장 좋은 회귀직선이라 정한 것 뿐이지, 그게 정말 맞다고 누가 장담할 수 있나? 그렇게 하기로 한 것 뿐이지. 아니 - 넓게 말하면 최소자승법 역시 하나의 최대우도추정이라고 할 수도 있는 것이다.

그렇다면 왜 이런 개떡같은 방법이 나온 걸까. 당연한 이야기지만 일반적인 회귀분석이 갖고 있는 문제점과 한계에 대응하기 위한 것도 일부 있고, 이것이 갖고 있는 최대의 문제점인 계산 문제가 컴퓨터의 도움으로 해결되었기 때문이기도 하다. 잘 생각해보면 최대우도추정법의 전략은 컴퓨터의 계산방식과 유사하다. 특정한 확률분포를 사용해 계산하여 우도를 구하고, 그 분포를 약간 이동시켜 또 우도를 구하고... 반복하다가 그 우도가 최대로 결정되는 지점에서 멈추는 것이다. 어쩐지 프로그래밍 기초에서 나오는 것과 유사하지 않나?

그리고 최대우도 추정의 가장 큰 장점 중 하나는 확률분포의 종류만 정해지면, 계산방식은 모두 동일하다는 것이다. 특히 일반적인 방식에서 각각 모두 다른 표준오차의 추정 역시 (매우 복잡하지만) 같은 방식으로서 계산되며, 표현될 수 있다는 것 - 이는 결국 확률분포만 확보해 표현할 수 있다면 - 일반적인 routine으로 처리할 수 있다는 가능성을 시사한다. 아울러 최대우도추정은 특정한 어떤 분포가 아니라 그런 방식을 사용하는 분석 방법을 통칭하는 일종의 전략(strategy) 같은 것으로 이해하면 되겠다.

2009년 7월 20일 월요일

Stata 11 곧 출시

통계 프로그램 중 개인적으로 R과 함께 배우고 싶은 프로그램인 - stata 11버전이 곧 나올 예정입니다.



학교에서 라이센스받지 못한 탓에, stata 10을 잠깐 만져본 것에 불과합니다만, 가볍고 빠르며, 다양한 통계분석이 가능했던 것으로 기억합니다. 결과물도 상당히 깔끔했는데 말이죠...

아무튼 한번쯤 구입해보고 싶긴 한데, 그놈의 가격이 문젭니다. 흐음...

2009년 7월 3일 금요일

재정적자 요인분석

이번 학기(2009년 봄학기)에 써야 할 페이퍼가 모두 두 개인데, 하나는 계량분석 과목에서 통계 기법을 사용하는 페이퍼(주제에는 제한 없음), 나머지는 행정이론사 과목에서 쓰는 연구 Proposal... 그 중에서 계량분석 과목 페이퍼를 만들면서 생각한 것들과 느낀 점들을 적어보려 한다.

 

지난 6월 23일 제출한 계량분석 텀 페이퍼 - 과제다 시험이다 해서 바쁜 와중에 페이퍼까지 써야 하는지라 정신이 하나도 없었다. 그리고 이 페이퍼의 목적이 뭔가 특별한 것을 발견하기 위한 것이라기보다는 그저 한 학기 동안 열심히(-_-;;) 배운 통계 기법들을 사용한 페이퍼를 만들어 보는 것에 있다는 조언도 크게 한 몫을 했고...

 

해서 겨우 선택한 주제가(아마 2주쯤 전일 것이다), 다른 과목에서 배웠던 미국 연방적자 결정요인에 대한 정치경제학적 분석 모델을 사용해 한국 데이터를 분석해 의미를 발견해 보는 것이었다. 생각보다는 통계분석 결과가 잘 나왔기 때문에 나름 만족했다는...


독립변수로서 통합재정수지를 사용하였고, 종속변수로서는 GDP대비 누적 재정적자 %point, 국회 의석배분구조를 통한 정치적 힘 변수(직접 분류하여 코딩), 선거 실시 여부(더미), 정치적 이데올로기(더미) 등을 사용하였다.


아무튼 느낀 점이라면... 선행연구가 있었고, 이론적 기반이 탄탄했기 때문에 망정이지, 아니었다면 이도저도 아닌 쓰레기만 늘릴 뻔했다는 것이다. 이 연구를 발전시키는 것도 괜찮겠지만, 그러려면 한국 예산결정과정의 구조와 dynamics, 그리고 정치적인 것까지 폭넓은 이해가 요구되는지라...




P.S. 손발이 오그라드는... 페이퍼를 보고 싶으시다면 개인적으로 연락 주시길 바란다. 업로드할 수도 있지만 아무래도 부끄럽다. -_-;;

 

사회현상의 이해

사회현상을 어떻게 이해할 것인가에 관한 논의는 크게 두 줄기로 갈라서 볼 수 있다. 바로 객관적 이해(the objectivisit approach)와 주관적 이해(the subjectivisit approach)가 그것이다. 간단하게 보면, 객관적으로 사회현상을 이해하려고 하는 입장에서는 우리가 연구하는 객관적인 실체가 있어 그것을 연구한다는 것이고, 주관적인 이해 방법은 세상의 모든 것이 그것을 보는 사람에 따라 다르게 재구성된다는 이야기이다.

이 두 큰 줄기를 세부적으로 분류하면...

the subjective-objective dimension for understanding social phenomena

주관적 이해 객관적 이해
명목론(Norminalism) 존재론 실재론(Realism)
反실증주의(Anti-positivism) 인식론 실증주의(Positivism)
주의(主意)론(Voluntarism) 인간관 결정론(Determinism)
사례 서술적(Ideographic) 방법론 일반적인 법칙 추구(nomothetic)

몇가지 첨언.

- 객관적 이해에서는 관찰할 대상이 외부에 객관적으로 실재한다고 생각하지만, 주관적 이해에서는 객관적으로 실재하는 것은 없으며, 인간이 이름붙이는 것에 불과하다고 본다.

- 객관적으로 사회현상을 이해하는 실증주의는, 콩뜨(August Comte)까지 거슬러 올라간다. 일반적으로 적용될 수 있는 이론화를 추구하며, 귀납의 논리를 활용한다. 반면, 주관적 이해는 객관적, 중립적 이해라는 것이 애초에 불가능한 것이고, 참여자 내지는 관찰자의 입장에서 이해하는 것이라 본다.

- 객관적 이해를 통해 보는 인간은 결정되는 대로 행동하는 존재이다. 반면 주관적 이해는 행위자의 내적, 외적 동기와 자발성을 중시한다. 상식적으로는 주관적인 이해가 끌리지만, 최근 신경과학, 인간 두뇌에 관한 연구를 보면 과연 전적으로 결정론을 무시할 수 있을까?

- 객관적 이해에서는 통일된 방법론, 기법을 통해 사회과학 역시 자연과학과 비슷한 법칙을 만들 수 있다고 생각한다. 그러나 주관적 이해에서는 애초 그런 것이 불가능하다고 본다.

- 사회과학을 주도하는 것은 객관적 실증주의인 듯하다(개인적인 생각).

2009년 6월 14일 일요일

왜 공부해야 할까?

왜 공부해야 할까? - 이런 물음에 대한 답변은 참 많지만, 막상 와닿는 것이 없다. 정말 좋아서 공부하는 호학(好學)하는 사람들은 사실 이런 질문이 필요없을 것이다. 그냥 좋으니까 하는 거니까. 하지만 나는 그렇지 않은, 공부 스트레스를 겪고 있는 범인(凡人)인 관계로 - 뭔가 다른 이유를 찾아 내 자신을 납득시켜야 할지 모르겠다.

이런 답은 어떨까? 잘 먹고 잘 살기 위해서, 학벌사회 대한민국, 넉넉한 것은 사람 뿐이라는 대한민국에서 살아남는 길은 치열한 경쟁에서 남을 밟고 일어서는 것 뿐이기 때문에 공부를 해야 한다 - 좋다. 매우 솔직해서 맘에 든다. 고상한 척 이야기하는 것보다 이런 솔직한 대답이 더 와 닿는다. 만약 그렇지 않다면 왜 많은 사람들이 미친듯이 돈을 써가면서 학원에 다니고, 과외를 받고, 사회에 나가서도 꾸역꾸역 책상 앞에 앉겠는가?

비단 경쟁에서 승리하기 위해서라는 냉정한 이야기를 들이밀지 않더라도, 뭔가 주워들어 알고 있으면 인생을 사는데 도움이 되는 것 같다. 인간의 삶을 행복으로 가기 위한 하나의 여정으로 본다면 - 중간중간 우리는 수많은 선택의 기로에 (원하건 그렇지 않건) 서게 된다. 그 선택 상황에서 정보를 안다는 것과 모른다는 것은 선택의 질을 가르는 결정적 요인이 되지 않을까? 물론 인간의 힘으로 안 되는 일도 널리고 널렸겠지만, 최소한 사람으로서 할 일은 다 하고 나서 운을 바라는 것이 순리에도 맞을 것이다.

지도를 통해 무언가 알고 목적지를 찾아가는 것과 덮어놓고 가면서 시행착오를 겪어 가며 목적지를 찾아가는 것은 그 시간과 노력에 있어 차이가 많이 난다. 공부 역시 그런 것이 아닐까? 남들이 쌓아놓은 경험과 지혜 - 비록 교과서에 나와 있지 않은 사소한 것들이라도 - 배워서 내 삶을 보다 풍요롭게 만들 수 있다면, 그깟 공부 - 힘들어도 해볼만 하지 않을까?