데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념, 피터 브루스, 앤드루 브루스 지음
아래 내용은 위의 책을 보고 제가 공부한 내용을 적은 것입니다. 혹시나 든 예시, 계산 등에 틀린 점이 있다면 꼭 알려주세요.
위치 추정
데이터를 살펴보는 가장 기초적인 단계는 각 피처의 대푯값을 구하는 것이다. 이는 곧 대부분의 값이 어디쯤에 위치하는지를 나타내는 추정값이다.
- 평균(mean): 모든 값의 총합을 개수로 나눈 값
- 가중 평균(weighted mean): 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
- 중간값(median): 데이터에서 가장 가운데 위치한 값
- 가중 중간값(weighted median): 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 데이터 값
- 절사평균(trimmed mean): 정해진 개수의 극단값을 제외한 나머지 값들의 평균
- 로버스트하다(robust): 극단값들에 민감하지 않다는 것을 의미한다.
- 특잇값(outlier): 대부분의 값과 매우 다른 데이터 값
평균은 가장 기본적인 위치 추정 방법이다. 평균은 모든 값의 총합을 값의 개수로 나눈 값이다.
1 |
3 |
4 |
6 |
5 |
2 |
(1 + 3 + 4 + 6 + 5 + 2) / 6 = 21 / 6 = 3.5
$$\bar{x}=\frac{\displaystyle\sum_{i}^n x_{i}}{n}$$
절사평균은 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균을 말한다. 정렬한 값들에서 양 끝의 p개를 제외하고 평균을 구한다. 절사평균은 극단값의 영향을 제거한다.
1 | 3 | 4 | 6 | 5 | 2 |
만약 p가 1이면:
1 | 3 | 4 | 6 | 5 | 2 |
(3 + 4 + 6 + 5) / 4 = 4.5
$$\bar{x}=\frac{\displaystyle\sum_{i=p+1}^{n-p}x_{i}}{n-2p}$$
다음처럼 극단값이 심할 때 매우 유용하다:
-12304 | 3 | 4 | 6 | 5 | 25781 |
각 데이터 값에 가중치를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 가중평균이 있다. 가중평균을 사용하는 두 가지 중요한 이유가 있다.
1 |
3 |
4 |
6 |
5 |
2 |
가중치:
1 |
1 |
0.5 |
0.5 |
1 |
2 |
가중평균 구하기:
1 x 1 = 1 |
3 x 1 = 3 |
4 x 0.5 = 2 |
6 x 0.5 = 3 |
5 x 1 = 5 |
2 x 2 = 4 |
(1 + 3 + 2 + 3 + 5 + 4) / (1 + 1 + 0.5 + 0.5 + 1 + 2) = 3
$$\bar{x}=\frac{\displaystyle\sum_{i=1}^{n}w_{i}x_{i}}{\displaystyle\sum_{i}^{n}w_{i}}$$
- 어떤 값들이 본래 다른 값들에 비해 큰 변화량을 갖을 때, 이러한 관측값에 대해 더 작은 가중치를 줄 수 있다.
- 데이터를 수집할 때, 우리가 관심 있는 서로 다른 대조군에 대해서 항상 똑같은 수가 얻어지지는 않는다. 이를 보정하기 위해서 사용한다.
데이터를 일렬로 정렬했을 때, 한가운데에 위치하는 값을 중간값이라고 한다. 만약 데이터 개수가 짝수라면 중간값은 실제 데이터 값이 아닌 가운데 있는 두 값의 평균으로 한다.
1 | 2 | 3 | 4 | 5 | 6 |
중간값 = (3 + 4) / 2 = 3.5
1 | 2 | 4 | 5 | 6 |
중간값 = 4
가중평균을 사용하는 이유와 마찬가지로 가중 중간값을 사용할 수도 있다.
변이 추정
위치는 데이터의 특징을 요약하는 다양한 요소들 중 하나이다. 두 번째 요소인 변이는 데이터 값이 얼마나 밀집해 있는지 혹은 퍼져 있는지를 나타내는 산포도를 나타낸다.
- 편차(deviation): 관측값과 위치 추정값사이의 차이
- 분산(variance): 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈 값, n은 데이터 개수
- 표준편차(standard deviation): 분산의 제곱근
- 평균절대편차(mean absolute deviation): 평균과의 편차의 절댓값의 평균
- 중간값의 중위절대편차(median absolute from the median): 중간값과의 편차의 절댓값의 중간값
- 범위(range): 데이터의 최댓값과 최솟값의 차이
- 순서통계량(order statistics): 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
- 백분위수(percentile): 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-P)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
- 사분위범위(interquartile range): 75번째 백분위수와 25번째 백분위수 사이의 차이
가장 대표적으로 사용되는 변위 추정들은 관측 데이터와 위치 추정값 사이의 차이, 편차를 기본으로 한다.
1 | 3 | 4 | 6 | 5 | 2 |
위의 데이터에서 평균과 중간값이 모두 3.5이다. 평균에서의 편차와 중간값에서의 편차가 같은 식으로 계산 가능하며, 편차를 계산해보면
1 - 3.5 | 3 - 3.5 | 4 - 3.5 | 6 - 3.5 | 5 - 3.5 | 2 - 3.5 |
평균에서의 편차, 중간값에서의 편차:
-2.5 | -0.5 | 0.5 | 2.5 | 1.5 | -1.5 |
위와 같이 편차는 데이터의 합이 항상 0이기 때문에 평균을 구하는 것이 변이를 보이는데에 아무 의미가 없다.
그 대신에 간단하게 사용하는 것이 편차의 절댓값의 평균을 구하는 것이다.
위에서 구한 편차의 절댓값:
2.5 | 0.5 | 0.5 | 2.5 | 1.5 | 1.5 |
(2.5 + 0.5 + 0.5 + 2.5 + 1.5 + 1.5) / 6 = 1.5
이는 평균절대편차라고 하며 식은 다음과 같다.
평균에서의 편차를 구하는 식:
$$\frac{\displaystyle\sum_{i=1}^{n}\text{\textbar}x_{i}-\bar{x}\text{\textbar}}{n}$$
가장 유명한 변이 추정 방법은 제곱 편차를 이용하는, 분산과 표준편차이다. 분산은 제곱 편차의 평균이고 표준편차는 분산의 제곱근이다.
분산:
$$s^2=\frac{\displaystyle\sum(x-\bar{x})^2}{n-1}$$
표준편차(분산의 제곱근):
$$s=\sqrt{s^2}$$
위의 식들은 모두 극단값에 로버스트하지 않다. 로버스트한 변위 추정값은 중간값으로부터의 중위절대편차(MAD)가 있다.
$$MAD=median(\text{\textbar}x_1-m\text{\textbar},\text{\textbar}x_2-m\text{\textbar},...,\text{\textbar}x_N-m\text{\textbar})$$
m은 데이터의 중간값을 의미하며 중간값의 특징을 따라 MAD는 극단값의 영향을 받지 않는다.
변위를 추정하는 또 다른 접근은 정렬된 데이터가 얼마나 퍼져 있는지를 보는 것이다. 정렬 데이터를 나타내는 통계량을 순서통계량이라고 부른다. 여기서 가장 기본이 되는 측도는 가장 큰 값과 작은 값의 차이를 나타내는 범위이다. 범위는 특잇값에 매우 민감하며 데이터의 변위를 측정하는 데 그렇게 유용하지 않다.
특잇값에 민감한 것을 피하기 위해, 범위의 양 끝에서 값들을 지운 후, 범위를 다시 알아 볼 수도 있다. 백분위수 사이의 차이를 가지고 추정을 하는 방법이 있다. 데이터에서 P번째 백분위수는 P퍼센트의 값이 그 값 혹은 그보다 작은 값을 갖고 (100-P)퍼센트의 값이 그 값 혹은 그보다 큰 값을 갖는 어떤 값을 의미한다.
-10 |
-6 |
-2 |
1 |
5 |
9 |
15 |
18 |
27 |
33 |
예를 들어 위의 데이터에서 50번째 백분위수라고 하면, 5와 9의 중간값인 7이된다. 80번째 백분위수인 0.8분위수는 (18 + 27) / 2인 22.5가 된다.
변위를 측정하는 가장 대표적인 방법은 사분위범위(IQR)라는 25번째 백분위수와 75번째 백분위수의 차이를 보는 것이다.
-10 | -6 | -2 | 1 | 5 | 9 | 15 | 18 | 27 | 33 |
-2(25번째 백분위수), 15(75번째 백분위수) 둘의 차이를 구하면 15 - (-2) = 17이 된다.
'노력 > 데이터 사이언스' 카테고리의 다른 글
[데이터 다루기] Kaggle Dataset 선택 (0) | 2019.04.10 |
---|---|
데이터 사이언스 앞으로의 방향. (0) | 2019.04.08 |
벌거벗은 통계학(Naked Statistics) - 찰스 윌런 (0) | 2019.03.29 |
3. 분포 (0) | 2019.02.26 |
1. 데이터의 형태 (0) | 2019.02.18 |