데이터 분포 탐색

데이터의 위치, 변이뿐 아니라 데이터가 어떻게 분포되어 있는지를 알아보는 것도 유용하다.

상자그림(boxplot): 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림
도수분포표(frequency table): 어떤 구간에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록
히스토그램(histogram): x축은 구간들을, y축은 빈도수를 나타내는 도수 테이블의 그림
밀도 그림(density plot): 히스토그램을 부드러운 곡선으로 나타낸 그림, 커널밀도추정을 주로 이용한다.

데이터의 전체 분포를 알아보는 데에 백분위수가 유용하다. 주로 사분위수나 십분위수를 사용한다. 사분위수는 (25, 50, 75번째 백분위수), 십분위수는 (10, 20, …, 90번째 백분위수)

> quantile(x <- rnorm(1001))

0% 25% 50% 75% 100%

-3.00804860 -0.71512840 -0.03763417 0.68960022 3.81027668

예를 들어 위의 rnorm() 정규 분포 함수를 이용해 1001개의 난수를 생성하고 사분위수를 보이면 위의 결과가 나온다.

상자그림은 백분위수를 이용해 데이터의 분산을 손쉽게 시각화하는 방법이다.

> boxplot(count ~ spray, data = InsectSprays, col = "lightgray")

입력하고 나면 위와 같은 상자그림이 나온다.

상자부분의 위쪽과 아래쪽은 각각 75%, 25% 백분위수를 나타낸다. 상자 안의 굵은 선이 중간값이다. 위아래로 나 있는 점선이 수염으로 데이터 전체의 범위를 나타내주는 위 아래 선들과 연결되어 있다. 기본 설정상, 수염 부분이 사분위범위의 1.5배 이상 더 멀리 나가지 않도록 설정되어있다. 수염 부분보다 더 바깥쪽에 위치한 데이터는 하나의 점, 이상치라고 표기한다.

도수분포표는 변수의 범위를 동일한 크기의 구간으로 나눈 다음, 각 구간마다 몇개의 변수 값이 존재하는지를 보여주기 위해 사용된다.

위와 같은 데이터가 있다고 한다면 최저 인원인 챌린저는 136명, 최고로 분포가 높은 실버는 1387137명이다. 이를 통해 이 데이터의 범위가 1387137 - 136 = 1387001이라는 것을 알 수 있다. 이 데이터를 균일한 3개의 범위로 나누면 1387001 / 3 = 462333.7이고 아래의 표와 같은 분포를 가진다.

- 롤 티어로 나눈 도수분포표

136 - 462469.7	5
462469.7 - 924803.3	0
924803.3 - 1387137	1

이 데이터는 티어가 매우 적기 때문에 각 구간의 특징을 알아내기가 어렵다. 구간별로 특징을 알아내려면 구간의 크기를 바꾸는 것도 유용한 정보를 얻는 좋은 방법니다. 만약 크기가 너무 크면, 결과가 너무 쪼개져 있어서 더 큰 그림을 볼 수가 없게 된다.

히스토그램은 이 도수분포표를 시각화하는 방법이다.

히스토그램은 다음과 같은 특징을 갖는다.

그래프에 빈 구간들이 있을 수 있다.
구간은 동일한 크기를 갖는다.
구간의 수는 사용자가 결정할 수 있다.
빈 구간이 있지 않은 이상, 막대사이는 공간 없이 서로 붙어 있다.

이진 데이터와 범주 데이터 탐색하기

범주형 데이터에서는 간단한 비율이나 퍼센트를 이용해 데이터에 관해 이야기할 수 있다.

- 이직 희망 및 이직 희망 사유

이진변수나 범주가 몇 개 안되는 범주형 변수를 분석하는 것은 그렇게 어렵지 않다. 이진변수의 경우 1과 같이 중요한 범주의 비율이 어느 정도 되는지 알아보면 된다.

위의 표에서 이직 희망 사유를 보면 다음과 같은 요인들로 분류할 수 있다. 더 나은 보수·복지를 위해, 더 나은 근무환경, 개인발전·승진, 더 나은 안정성을 위해, 개인 사업을 위해서 등 8가지로 나뉘어 있다.

이를 막대 도표로 나타내면 위와 같이 표현할 수 있다. 일반적으로는 각 범주 사이에 틈이 있으면 막대도표, 히스토그램은 붙어있다.

최빈값이란 데이터에서 가장 자주 등장하는 값 혹은 값들을 의미한다. 이직 희망 사유에서 최빈값은 더 나은 보수·복지를 위해서이다.

'노력 > 데이터 사이언스' 카테고리의 다른 글

[데이터 다루기] Kaggle Dataset 선택 (0)	2019.04.10
데이터 사이언스 앞으로의 방향. (0)	2019.04.08
벌거벗은 통계학(Naked Statistics) - 찰스 윌런 (0)	2019.03.29
2. 추정 (0)	2019.02.19
1. 데이터의 형태 (0)	2019.02.18

노력충

3. 분포

데이터 분포 탐색

이진 데이터와 범주 데이터 탐색하기

'노력 > 데이터 사이언스' 카테고리의 다른 글

티스토리툴바

3. 분포

데이터 분포 탐색

이진 데이터와 범주 데이터 탐색하기

'노력 > 데이터 사이언스' 카테고리의 다른 글

'노력/데이터 사이언스' Related Articles

티스토리툴바