본문 바로가기

노력/데이터 사이언스

1. 데이터의 형태

정형 데이터


일상적으로 생성되는 수많은 실시간 데이터들은 대부분 정형화되지 않은 상태이다. 데이터 과학에서 가장 중요한 것 중 하나는 이런 정형화되지 않은 데이터(raw data)를 활용 가능한 형태의 정보로 변환하는 것이다. 일반적으로 아는 통계적인 개념들을 활용하기 위해서는, 정형화되지 않은 원시 데이터를 가공해 정형화된 형태로 변환하거나 처음부터 특정 목적으로 수집해야한다.


- 정형 데이터의 종류

  • 연속형(continuous): 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 (구간형, 실수형, 수치형 데이터) - 풍속, 지속시간 등
  • 이산형(discrete): 횟수와 같은 정수 값만 취할 수 있다. (정수형, 횟수 데이터) - 사건의 발생 빈도 등
  • 범주형(categorical): 가능한 범주 안의 값만을 취할 수 있다. (목록, 열거, 요인, 명목, 다항형 데이터) - 혈액형, 도시명 등 순서를 매길 수 없고 셀 수 있는 특성을 가진다.
  • 이진형(binary): 두 개의 값만을 갖는 범주형 데이터의 특수한 경우. (이항적, 논리적, 지표, 불리언 데이터)
  • 순서형(ordinal): 값들 사이에 분명한 순위가 있는 범주형 데이터 (정렬된 요인 데이터) - 만족도, 평점 등 카테고리들이 순서가 있는 경우

데이터의 분류는 데이터를 분석하고 예측을 모델링할 때, 시각화, 해석, 통계 모델 결정 등에 데이터 종류가 중요한 역할을 하기 때문에 해야만 꼭 해야 하는 작업이다.


- 데이터가 어떤 정형 데이터에 속하는 지 알았을 때의 장점


  • 데이터가 범주형이라는 정보는 소프트웨어가 통계분석을 수행하는 방식을 결정하는 데 도움을 준다.
  • 관계형 데이터베이스에서처럼, 저장소와 인덱싱을 최적화하는 데 사용한다.
  • 범주형 변수가 취할 수 있는 값들은 소프트웨어적으로 처리가 가능하다.

테이블 데이터


데이터 분석에서 가장 대표적으로 사용되는 객체의 형태이다.


  • 데이터 프레임(data frame): 통계와 머신러닝 모델에서 가장 기본이 되는 테이블 형태의 데이터 구조를 말한다. 데이터프레임은 피처와 레코드로 이루어져 있다.
  • 피처(feature): 일반적으로 테이블의 각 열이 하나의 피처를 의미한다. (특징, 속성, 입력, 예측변수, 변수)
  • 결과(outcome): 데이터 과학 프로젝트의 목표는 대부분 어떤 결과를 예측하는 데 있다. 실험이나 연구에서 결과를 예측하기 위해 피처를 사용한다. (종속변수, 응답, 목표, 출력)
  • 레코드(record): 일반적으로 테이블의 각 행은 하나의 레코드를 의미한다. (기록값, 사건, 사례, 예제, 관측값, 패턴, 샘플)

- R의 데이터프레임


R에서는 data.frame이라는 객체를 제공하는데 내부적으로 행 번호에 따라 정수로 된 인덱스를 갖고 있다. row.names 속성을 조정하면 사용자가 원하는 키를 만들 수 있다.


- 테이블 형식이 아닌 데이터 구조들


  • 시계열 데이터
  • 공간 데이터
  • 그래프 데이터
  • 기타 데이터

- 인용한 책:
데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념, 피터 브루스, 앤드루 브루스 지음


'노력 > 데이터 사이언스' 카테고리의 다른 글

[데이터 다루기] Kaggle Dataset 선택  (0) 2019.04.10
데이터 사이언스 앞으로의 방향.  (0) 2019.04.08
벌거벗은 통계학(Naked Statistics) - 찰스 윌런  (0) 2019.03.29
3. 분포  (0) 2019.02.26
2. 추정  (0) 2019.02.19