고등학교나 대학교에서 통계를 배울 때 베이즈 정리라는 걸 들어봤을 것이다.
지금은 고등학교에서 배우는지 잘 모르겠지만 5년 전쯤에는 배웠던 것도 같다. 아님 말고
복학하고 전** 교수님의 베이지안 통계학 강의를 듣고 있는데 흔히 우리가 알고 있던 통계와 달라서
도망치는 친구들이 많지만 흥미를 가지는 사람들고 있는 것 같고 나도 그 중 하나라 배운 내용들을 정리해보려 한다.
베이지안 통계학을 공부하다가 이게 도대체 뭐지 하는 사람들은 한번씩 읽어보면 조금 좋을지도?
베이지안 통계학 vs 빈도주의 통계학
- 불확실성에 대한 관점 차이
명색이 통계학과인데 이번 강의를 들으면서 처음으로 현대의 통계학이 빈도주의 통계학(우리가 알고 있던 거)과 베이지안 통계학으로 나뉜다는 것을 알게 되었다. ㅜㅜ
통계학자들의 궁극적인 목표는 결국 모수를 추정해내는 것이다. 여기서 모수란? 모집단의 특성을 나타내는 수치로, 크게 { 평균, 분산, 비율 } 이렇게 세 개의 값을 우리는 추정하려고 노력한다. 이 미지의 관심 모수를 θ라고 하는데, 베이지안과 빈도주의는 이 θ의 불확실성을 바라보는 관점 차이라고 할 수 있다.
지금까지 배운 내용을 생각해보자. 빈도주의 통계에서 '확률' 이란 모집단에서 반복적인 샘플링을 통해 했을 때 발생하는 현상에 대한 빈도수이다. 어찌보면 당연한 말이다. 그렇다면 간단한 예를 들어 살펴보자. 우리가 알고 싶은 모수가 대한민국 국민이 일주일에 커피를 마시는데 쓰는 돈의 평균이라고 해보자. 스타벅스 마케팅 팀같은 곳에서는 이런 거를 무척이나 궁금해 할 것이다!(아마도?) 하지만 궁금하다고 전 국민 5천만 명(물론 이중 1500만 명 정도는 안 마시겠지만)을 대상으로 조사할 수는 없는 노릇이다. 그래서 하는 것이 표본을 뽑는 것이고, 표본으로부터 얻어낸 통계량으로 모수를 추정하고 신뢰구간을 구해서 가설을 검정하게 되는 것이다. 고등학교 때 뭣도 모르고 항상 계산하던 z 값과 유의확률, 뭐 1.96 2.56 이런 친구들이 다 빈도주의와 관련된 것들이라는 말이다!
하지만 베이지안 통계학에서는 '확률'을 통계학자의 주관적인 믿음의 변화로 바라본다. 이 말을 처음에 듣는다면 그 누구라도 한 번에 이해하긴 쉽지 않을 것 같다. 확률은 정해진 값 아니야? 인데 베이지안에서는 실험을 할 때마다 확률이 바뀐다는 것이다. 위의 예를 베이지안 통계의 관점으로 바라봐보도록 하자. 내가 연구자라면, 나는 대한민국 국민이라면 일주일에 커피값으로 5만원은 쓰지! 라는 믿음을 가지고 연구를 시작할 것이다. 그리고 나서 사람1, 사람2, 사람3, ... 에게서 관측치를 얻어낸다. 이때, 사람1은 3만원, 사람2는 2만원, 사람3은 0원을 쓴다고 한다면, 관측치를 얻어낼 때마다 처음의 믿음에 대한 자신감은 점점 줄어들 것이고, 관측이 계속될 때마다 이 믿음은 (4만원? 3만원? 아니 만원..?) 갱신될 것이다.
이를 한마디로 정리해보자면! 빈도주의 통계학자는 동일한 모집단에서 반복적으로 샘플링할 때 모수의 추정치가 얼마나 변한느지, 즉 분산에 의해 불확실성을 바라보지만 베이지안 통계학자는 관측된 데이터에 의해 모수에 대한 사전 믿음이 얼마나 변했는지로 불확실성을 바라본다고 얘기할 수 있다. 다른 말로, 빈도주의에서는 관측값 X가 확률변수이지만, 베이지안에서는 모수 θ가 확률변수가 되는 것이다.
지금은 말로만 적어놔서 잘 이해가 안될 수 있지만, 앞으로의 글들에 이 베이지안 통계를 실제로 계산하는 방법들에 대해 정리해보겠다!
하나씩 읽어나가다 보면 베이지안에 대한 감이 잡힐 것이라고 믿는다.