본문 바로가기

노력/데이터 사이언스

3. 분포

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념, 피터 브루스, 앤드루 브루스 지음


아래 내용은 위의 책을 보고 제가 공부한 내용을 적은 것입니다. 혹시나 든 예시, 계산 등에 틀린 점이 있다면 꼭 알려주세요.


데이터 분포 탐색


데이터의 위치, 변이뿐 아니라 데이터가 어떻게 분포되어 있는지를 알아보는 것도 유용하다.



  • 상자그림(boxplot): 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림
  • 도수분포표(frequency table): 어떤 구간에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록
  • 히스토그램(histogram): x축은 구간들을, y축은 빈도수를 나타내는 도수 테이블의 그림
  • 밀도 그림(density plot): 히스토그램을 부드러운 곡선으로 나타낸 그림, 커널밀도추정을 주로 이용한다.




데이터의 전체 분포를 알아보는 데에 백분위수가 유용하다. 주로 사분위수나 십분위수를 사용한다. 사분위수는 (25, 50, 75번째 백분위수), 십분위수는 (10, 20, …, 90번째 백분위수)


> quantile(x <- rnorm(1001))

         0%         25%         50%         75%        100% 

-3.00804860 -0.71512840 -0.03763417  0.68960022  3.81027668 


예를 들어 위의 rnorm() 정규 분포 함수를 이용해 1001개의 난수를 생성하고 사분위수를 보이면 위의 결과가 나온다. 




상자그림은 백분위수를 이용해 데이터의 분산을 손쉽게 시각화하는 방법이다. 


> boxplot(count ~ spray, data = InsectSprays, col = "lightgray")


입력하고 나면 위와 같은 상자그림이 나온다.


상자부분의 위쪽과 아래쪽은 각각 75%, 25% 백분위수를 나타낸다. 상자 안의 굵은 선이 중간값이다. 위아래로 나 있는 점선이 수염으로 데이터 전체의 범위를 나타내주는 위 아래 선들과 연결되어 있다. 기본 설정상, 수염 부분이 사분위범위의 1.5배 이상 더 멀리 나가지 않도록 설정되어있다. 수염 부분보다 더 바깥쪽에 위치한 데이터는 하나의 점, 이상치라고 표기한다.




도수분포표는 변수의 범위를 동일한 크기의 구간으로 나눈 다음, 각 구간마다 몇개의 변수 값이 존재하는지를 보여주기 위해 사용된다.



위와 같은 데이터가 있다고 한다면 최저 인원인 챌린저는 136명, 최고로 분포가 높은 실버는 1387137명이다. 이를 통해 이 데이터의 범위가 1387137 - 136 = 1387001이라는 것을 알 수 있다. 이 데이터를 균일한 3개의 범위로 나누면 1387001 / 3 = 462333.7이고 아래의 표와 같은 분포를 가진다.


- 롤 티어로 나눈 도수분포표

136 - 462469.7 

 462469.7 - 924803.3

0

 924803.3 - 1387137

1


이 데이터는 티어가 매우 적기 때문에 각 구간의 특징을 알아내기가 어렵다. 구간별로 특징을 알아내려면 구간의 크기를 바꾸는 것도 유용한 정보를 얻는 좋은 방법니다. 만약 크기가 너무 크면, 결과가 너무 쪼개져 있어서 더 큰 그림을 볼 수가 없게 된다.





히스토그램은 이 도수분포표를 시각화하는 방법이다.


히스토그램은 다음과 같은 특징을 갖는다.


  • 그래프에 빈 구간들이 있을 수 있다.
  • 구간은 동일한 크기를 갖는다.
  • 구간의 수는 사용자가 결정할 수 있다.
  • 빈 구간이 있지 않은 이상, 막대사이는 공간 없이 서로 붙어 있다.



이진 데이터와 범주 데이터 탐색하기

범주형 데이터에서는 간단한 비율이나 퍼센트를 이용해 데이터에 관해 이야기할 수 있다. 

 - 이직 희망 및 이직 희망 사유


이진변수나 범주가 몇 개 안되는 범주형 변수를 분석하는 것은 그렇게 어렵지 않다. 이진변수의 경우 1과 같이 중요한 범주의 비율이 어느 정도 되는지 알아보면 된다.
위의 표에서 이직 희망 사유를 보면 다음과 같은 요인들로 분류할 수 있다. 더 나은 보수·복지를 위해, 더 나은 근무환경, 개인발전·승진, 더 나은 안정성을 위해, 개인 사업을 위해서 등 8가지로 나뉘어 있다.


이를 막대 도표로 나타내면 위와 같이 표현할 수 있다. 일반적으로는 각 범주 사이에 틈이 있으면 막대도표, 히스토그램은 붙어있다.




최빈값이란 데이터에서 가장 자주 등장하는 값 혹은 값들을 의미한다. 이직 희망 사유에서 최빈값은 더 나은 보수·복지를 위해서이다.