본문 바로가기

카테고리 없음

통계학, 빅데이터를 잡다

조재근 지음 | 한국문학사 | 2017년 07월

 

최근에 나의 진로와 관련해서 빅데이터, 데이터 마이닝, 통계, 코딩, 컴퓨터 사이언스 등 지금까지의 나의 인생과는 상당히 거리가 있는 단어들을 많이 접하고 있다. 노베이스에 군복무중이라 제대로 공부조차 시작할 수 없는 시기에 나는 그저 어느 우물을 팔 것인가 수맥봉을 가지고 허허벌판을 돌아다니는 느낌이다.

 

그래서 내가 시작한 것은 관련 서적을 닥치는대로 읽고 관심분야를 확립하는 활동이다. 이 책을 읽은 것은 그 활동의 일환으로 처음에 기대한 것과 같이 나에게 큰 영향을 주지는 못했지만 그래도 확률이라는 고등학교 이후로 까먹었던 개념을 조금이나마 상기시킬 수 있게 되었다.

파스칼과 페르마의 문제

"세 번을 이겨야 판돈을 차지하기로 나와 상대방이 약속했다고 해보자. 또 이미 내가 두번, 그리고 상대방이 한 번 이겼다고 하자. 그런데 우리가 더 이상 게임을 계속하지 않고 판돈을 공정하게 나누고 싶어한다면 내가 받아야 할 돈이 얼마인지 알고싶다."

이 문제는 파스칼과 페르마가 편지를 주고 받으면서 제시한 문제이다. 처음 이 문제를 봤을 때 당연히 내가 두번 이기고 상대방이 한번 이겼으니 2:! 비율로 나눠야 하는게 아닌가 하는 직관적인 해답이 떠오른다.

 

하지만 파스칼과 페르마는 게임을 계속했을 때 나올 수 있는 모든 결과들을 따져서 돈을 나눠야한다고 주장했다. 나는 다음 게임에서 이겨 판돈을 딸 확률 1/2과 다음 게임을 지고 그 다음 게임을 이겨서 판돈을 딸 확률 1/2*1/2 를 더한 값만큼, 즉 3/4를 가져가야 한다.

 

이런 말장난 같은 문제를 통해 우리의 확률에 대한 직감이 얼마나 그 기능이 떨어지는지를 알 수 있었다. 그리고 다음의 문제에서도 마찬가지이다.

 

거짓 양성 반응과 기저율의 오류

천 명당 한 명 꼴로 걸리는 무서운 병이 있다고 해보자. 그 병에 걸렸는지 검사하는 방법이 있는데 꽤 정확한 검사라서 병이 있는 사람은 100% 양성 반응이 나온다(이 비율을 '민감도'라고 부른다).즉 병이 있는 사람이 음성이 나올 경우(이를 잘못된 음성의 비율, 즉 '위음성률'이라고 부른다)는 없다. 그런데 양성 반응이 나온 사람이 모두 병이 있는 것은 아니라고 한다. 병이 없는 사람 가운데 95%는 음성반응이 나오지만(이 비율을 '특이도'라고 부른다) 5%에 대해서는 양성반응이 나온다고 한다(이를 잘못된 거짓 양성의 비율, 즉 '위양성률'이라고 부른다). 완벽한 검사라면 민감도와 특이도가 100%일 것이다. 그 정도는 아니지만 이 검사는 민감도가 100%, 특이도가 95%이므로 상당히 정확한 검사라고 하겠다. 

자, 내가 그 검사를 받았더니 양성이 나왔다고 하자, 당연히 나는 공포에 질려 떨게 될 것이다. 민감도와 특이도가 높은 정확한 검사에서 양성 반응이 나왔으므로 나는 거의 확실히 병에 걸렸을 것 같다. 양성 판정을 받은 내가 그 병에 걸렸을 확률은 얼마즘 될까?

처음 이 문제를 보면 내가 이 무서운 병에 걸렸을 확률이 90%는 넘을 것 같다. 하지만 앞의 문제에서 말했던 것과 같이 우리의 직감은 그다지 믿을만하지 못하다. 내가 이 병에 걸렸을 확률은 2%도 안된다!

 

직관적으로 생각하면 좀 이상하지만 퍼센트르 숫자로 바꿔서 생각해보면 이해하기 쉽다.검사해서 양성반응이 나오는 사람은 특이도가 95%이므로 1000명 중에 50명이고, 병에 걸린 환자는 1000명 중에 1명 꼴이므로 양성반응이 나온 사람 중에 실제로 병에 걸린 환자는 1/50, 즉 2%가 나온다(병이 없는 사람들 중에 95%가 음성이 나오므로 999*.05, 즉 49.95명 + 확진자 1명 은 50.95명이므로 책에서 2%가 안된다고 설명한 것 같다).

 

이와같은 예시 문제들을 통해 나의 무지를 깨달았다. 그리고 확률에 대해 더 공부하고 싶어졌다.