본문 바로가기

노력/데이터 사이언스

벌거벗은 통계학(Naked Statistics) - 찰스 윌런

1그램의 정보가 1톤의 의견보다 무겁다!

사람들은 누구나 비슷하다. 통계에 능통한 대가인 찰스 윌런도 어린 시절 지금의 나와 같이 수학을 좋아하지 않았다고 한다. 수학은 그저 숫자를 이용해서 답을 구하기 위한 학문이라는 생각이 내게도 매우 강했다. 수는 어려웠고 이전 학년의 수학을 수료해 다음 학년이 되면 으레 할 수 있어야 한다는 게 나는 이해가 되질 않았다. 시간이 지나 컴퓨터공학과를 다니고 데이터 사이언티스트가 되고 싶어졌다. 하지만 아직도 나는 수학을 하지 못한다. 공학자가 되고 싶은 사람이 그럴 수는 없는 노릇이다. 독서를 통해 이런 문제를 해소해보고자 했다.

 

찰스 윌런의 벌거벗은 통계학은 우리 일상이 통계와 밀접하게 연관되어 있다고 말해주는 책이다. 사람들이 수를 싫어한다고 하면서도 메이저리그 선수들의 타율이나 주식시장의 변동에 민감하게 반응하는 역설적인 모습을 보인다는 것이다. 말을 듣고 생각해보니 과거의 나는 축구를 볼 때에나 E-스포츠를 볼 때도 항상 시각적으로 보여주는 데이터에 민감하게 반응하곤 했었는데 스스로가 수와는 큰 관련이 없다고 생각했던 것 같다.

 

이 책은 통계학적인 지식을 재미있게 강의해주는 교수님처럼 알려준다. 여느 책이 그렇듯 뒤로 갈 수록 어려운 이론과 수학적인 이론들이 등장해 여러분을 머리 아프게 하겠지만, 앞의 7장까지는 그런 어려운 내용 없이 쉽게 읽어 나갈 수 있다.

 

 

 

 

 

 


개인적으로도 통계에 대한 공부를 해 나가고 있는 과정이기 때문에 책을 다 이해하지 못했지만 헷갈리는 내용 하나는 제대로 잡고 넘어가게 되어 기분은 좋다.

 

데이터의 분포

바로 정규분포에 관한 얘기인데, 정규분포의 1표준오차 안에 있을 확률이 68%, 2표준오차 안에 있을 확률은 약 95%, 3표준오차 안에 있을 확률은 그에 4.2를 더한 확률이라는 것이다. 이를 통해 표본에 있던 데이터를 뽑았을 때 혹은 재표본추출을 하거나 같은 환경에서 수집한 데이터가 얼만큼의 확률로 정규분포에 속하는지 알 수 있다는 개념을 알게 되었다. 예를 들어 롤 티어로 놓고 보더라도 중앙인 실버와 골드가 가장 높으며 MMR을 기준으로 놓고 보자면 처음과 끝이 0, 3000이라고 가정했을 때 새로 수집한 플레이어의 점수가 MMR 4000이라면 그래프를 멀리 뚫고 나가서 5, 6표준오차 내에 있을것이다. 그러므로 새로 수집한 플레이어가 있을 확률은 극히 0에 수렴하고 버그나 핵을 의심해 볼 수 있을 것이다.

'노력 > 데이터 사이언스' 카테고리의 다른 글

[데이터 다루기] Kaggle Dataset 선택  (0) 2019.04.10
데이터 사이언스 앞으로의 방향.  (0) 2019.04.08
3. 분포  (0) 2019.02.26
2. 추정  (0) 2019.02.19
1. 데이터의 형태  (0) 2019.02.18