본문 바로가기

노력/데이터 사이언스

(7)
[데이터 다루기] FIFA 19 데이터 깔끔하게 다듬기 저번 포스트에서 FIFA 19 선수들 데이터를 선택했다는 말씀을 드렸습니다. https://www.kaggle.com/karangadiya/fifa19 FIFA 19 complete player dataset 18k+ FIFA 19 players, ~90 attributes extracted from the latest FIFA database www.kaggle.com Kaggle에서 데이터를 받을 수 있습니다. 데이터를 받고 분석을 하기 전에 데이터를 이해하고 전처리해야겠죠? 제 첫 데이터 전처리라 꽤 긴 시간이 소요됐습니다. 아직 pandas와 numpy가 어렵네요. python3도 마찬가지입니다. import numpy as np import pandas as pd import seaborn as..
[데이터 다루기] Kaggle Dataset 선택 캐글에 접속하면 다음과 같은 메인 페이지가 등장한다. 위에서 데이터셋을 누르면 데이터셋이 모여있는 곳으로 이동할 수 있다. 제일 재미있어 보이는 FIFA 19 complete player dataset을 골랐다. 원한다면 다른 데이터도 고를 수 있으며 2019년 4월 8일 기준으로 15718개의 데이터셋이 있다. 데이터셋에 들어오면 간략한 설명, 그리고 다른 위의 다른 탭들을 들어가면 다른 사람들이 이 데이터에 대해서 분석한 내용, 혹은 어떤 데이터를 나타내는지에 대한 질문들도 있다. 아래로 내리다보면 데이터셋 파일을 다운로드 받을 수 있는 곳이 있다. 데이터가 어떻게 되어있는지도 눈으로 대강 파악할 수 있다. 이제부터 이 데이터를 분석할 준비를 해보자.
데이터 사이언스 앞으로의 방향. 안녕하세요. 데이터 사이언티스트와 피트니스 모델이 되고 싶은 노력충입니다. 그 동안 데이터 사이언스와 인공지능보다 운동에 더 신경쓴 것이 아닌가 생각하실 수도 있는데, 어찌보면 그럴 수도 있는 것 같네요. 일지는 매일 하나씩 올라가고 있어서요. 하지만 데이터 사이언스나 인공지능도 소홀히 한 것은 아닙니다. 단지 장벽에 부딪힌 느낌이 있어서 다시 한 번 방향 설정을 할 필요가 있다고 느꼈습니다. 전 데이터 사이언티스트가 되고 싶다는 일념으로 꽤 많은 책들을 구입했습니다. 그 유명한 오라일리의 책부터 Kaggle 경쟁을 직접 해 볼 수 있게 도와주는 책들까지 다 합하면 10권 가량 구매해뒀습니다. 책들은 다 퀄리티도 마음에 들고 굉장히 쉽게 설명되어 있더군요. 앞쪽만요. 뒤로 갈 수록 간단하게 한 줄 씩만 ..
벌거벗은 통계학(Naked Statistics) - 찰스 윌런 1그램의 정보가 1톤의 의견보다 무겁다! 사람들은 누구나 비슷하다. 통계에 능통한 대가인 찰스 윌런도 어린 시절 지금의 나와 같이 수학을 좋아하지 않았다고 한다. 수학은 그저 숫자를 이용해서 답을 구하기 위한 학문이라는 생각이 내게도 매우 강했다. 수는 어려웠고 이전 학년의 수학을 수료해 다음 학년이 되면 으레 할 수 있어야 한다는 게 나는 이해가 되질 않았다. 시간이 지나 컴퓨터공학과를 다니고 데이터 사이언티스트가 되고 싶어졌다. 하지만 아직도 나는 수학을 하지 못한다. 공학자가 되고 싶은 사람이 그럴 수는 없는 노릇이다. 독서를 통해 이런 문제를 해소해보고자 했다. 찰스 윌런의 벌거벗은 통계학은 우리 일상이 통계와 밀접하게 연관되어 있다고 말해주는 책이다. 사람들이 수를 싫어한다고 하면서도 메이저리그..
3. 분포 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념, 피터 브루스, 앤드루 브루스 지음 아래 내용은 위의 책을 보고 제가 공부한 내용을 적은 것입니다. 혹시나 든 예시, 계산 등에 틀린 점이 있다면 꼭 알려주세요. 데이터 분포 탐색 데이터의 위치, 변이뿐 아니라 데이터가 어떻게 분포되어 있는지를 알아보는 것도 유용하다. 상자그림(boxplot): 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림도수분포표(frequency table): 어떤 구간에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록히스토그램(histogram): x축은 구간들을, y축은 빈도수를 나타내는 도수 테이블의 그림밀도 그림(density plot): 히스토그램을 부드러운 곡선으로 나타낸 그림, 커..
2. 추정 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념, 피터 브루스, 앤드루 브루스 지음아래 내용은 위의 책을 보고 제가 공부한 내용을 적은 것입니다. 혹시나 든 예시, 계산 등에 틀린 점이 있다면 꼭 알려주세요. 위치 추정 데이터를 살펴보는 가장 기초적인 단계는 각 피처의 대푯값을 구하는 것이다. 이는 곧 대부분의 값이 어디쯤에 위치하는지를 나타내는 추정값이다. 평균(mean): 모든 값의 총합을 개수로 나눈 값가중 평균(weighted mean): 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값중간값(median): 데이터에서 가장 가운데 위치한 값가중 중간값(weighted median): 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 ..
1. 데이터의 형태 정형 데이터 일상적으로 생성되는 수많은 실시간 데이터들은 대부분 정형화되지 않은 상태이다. 데이터 과학에서 가장 중요한 것 중 하나는 이런 정형화되지 않은 데이터(raw data)를 활용 가능한 형태의 정보로 변환하는 것이다. 일반적으로 아는 통계적인 개념들을 활용하기 위해서는, 정형화되지 않은 원시 데이터를 가공해 정형화된 형태로 변환하거나 처음부터 특정 목적으로 수집해야한다. - 정형 데이터의 종류연속형(continuous): 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 (구간형, 실수형, 수치형 데이터) - 풍속, 지속시간 등이산형(discrete): 횟수와 같은 정수 값만 취할 수 있다. (정수형, 횟수 데이터) - 사건의 발생 빈도 등범주형(categorical): 가능한 범주 안의 값만..