데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념, 피터 브루스, 앤드루 브루스 지음
아래 내용은 위의 책을 보고 제가 공부한 내용을 적은 것입니다. 혹시나 든 예시, 계산 등에 틀린 점이 있다면 꼭 알려주세요.
데이터 분포 탐색
데이터의 위치, 변이뿐 아니라 데이터가 어떻게 분포되어 있는지를 알아보는 것도 유용하다.
- 상자그림(boxplot): 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림
- 도수분포표(frequency table): 어떤 구간에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록
- 히스토그램(histogram): x축은 구간들을, y축은 빈도수를 나타내는 도수 테이블의 그림
- 밀도 그림(density plot): 히스토그램을 부드러운 곡선으로 나타낸 그림, 커널밀도추정을 주로 이용한다.
데이터의 전체 분포를 알아보는 데에 백분위수가 유용하다. 주로 사분위수나 십분위수를 사용한다. 사분위수는 (25, 50, 75번째 백분위수), 십분위수는 (10, 20, …, 90번째 백분위수)
> quantile(x <- rnorm(1001))
0% 25% 50% 75% 100%
-3.00804860 -0.71512840 -0.03763417 0.68960022 3.81027668
예를 들어 위의 rnorm() 정규 분포 함수를 이용해 1001개의 난수를 생성하고 사분위수를 보이면 위의 결과가 나온다.
상자그림은 백분위수를 이용해 데이터의 분산을 손쉽게 시각화하는 방법이다.
> boxplot(count ~ spray, data = InsectSprays, col = "lightgray")
입력하고 나면 위와 같은 상자그림이 나온다.
상자부분의 위쪽과 아래쪽은 각각 75%, 25% 백분위수를 나타낸다. 상자 안의 굵은 선이 중간값이다. 위아래로 나 있는 점선이 수염으로 데이터 전체의 범위를 나타내주는 위 아래 선들과 연결되어 있다. 기본 설정상, 수염 부분이 사분위범위의 1.5배 이상 더 멀리 나가지 않도록 설정되어있다. 수염 부분보다 더 바깥쪽에 위치한 데이터는 하나의 점, 이상치라고 표기한다.
위와 같은 데이터가 있다고 한다면 최저 인원인 챌린저는 136명, 최고로 분포가 높은 실버는 1387137명이다. 이를 통해 이 데이터의 범위가 1387137 - 136 = 1387001이라는 것을 알 수 있다. 이 데이터를 균일한 3개의 범위로 나누면 1387001 / 3 = 462333.7이고 아래의 표와 같은 분포를 가진다.
- 롤 티어로 나눈 도수분포표
136 - 462469.7 |
5 |
462469.7 - 924803.3 |
0 |
924803.3 - 1387137 |
1 |
이 데이터는 티어가 매우 적기 때문에 각 구간의 특징을 알아내기가 어렵다. 구간별로 특징을 알아내려면 구간의 크기를 바꾸는 것도 유용한 정보를 얻는 좋은 방법니다. 만약 크기가 너무 크면, 결과가 너무 쪼개져 있어서 더 큰 그림을 볼 수가 없게 된다.
히스토그램은 이 도수분포표를 시각화하는 방법이다.
히스토그램은 다음과 같은 특징을 갖는다.
- 그래프에 빈 구간들이 있을 수 있다.
- 구간은 동일한 크기를 갖는다.
- 구간의 수는 사용자가 결정할 수 있다.
- 빈 구간이 있지 않은 이상, 막대사이는 공간 없이 서로 붙어 있다.
이진 데이터와 범주 데이터 탐색하기
이를 막대 도표로 나타내면 위와 같이 표현할 수 있다. 일반적으로는 각 범주 사이에 틈이 있으면 막대도표, 히스토그램은 붙어있다.
최빈값이란 데이터에서 가장 자주 등장하는 값 혹은 값들을 의미한다. 이직 희망 사유에서 최빈값은 더 나은 보수·복지를 위해서이다.
'노력 > 데이터 사이언스' 카테고리의 다른 글
[데이터 다루기] Kaggle Dataset 선택 (0) | 2019.04.10 |
---|---|
데이터 사이언스 앞으로의 방향. (0) | 2019.04.08 |
벌거벗은 통계학(Naked Statistics) - 찰스 윌런 (0) | 2019.03.29 |
2. 추정 (0) | 2019.02.19 |
1. 데이터의 형태 (0) | 2019.02.18 |