본문 바로가기

노력/데이터 사이언스

데이터 사이언스 앞으로의 방향.

안녕하세요. 데이터 사이언티스트와 피트니스 모델이 되고 싶은 노력충입니다.

 

그 동안 데이터 사이언스와 인공지능보다 운동에 더 신경쓴 것이 아닌가 생각하실 수도 있는데, 어찌보면 그럴 수도 있는 것 같네요. 일지는 매일 하나씩 올라가고 있어서요.

 

하지만 데이터 사이언스나 인공지능도 소홀히 한 것은 아닙니다. 단지 장벽에 부딪힌 느낌이 있어서 다시 한 번 방향 설정을 할 필요가 있다고 느꼈습니다. 전 데이터 사이언티스트가 되고 싶다는 일념으로 꽤 많은 책들을 구입했습니다. 그 유명한 오라일리의 책부터 Kaggle 경쟁을 직접 해 볼 수 있게 도와주는 책들까지 다 합하면 10권 가량 구매해뒀습니다. 책들은 다 퀄리티도 마음에 들고 굉장히 쉽게 설명되어 있더군요. 앞쪽만요. 뒤로 갈 수록 간단하게 한 줄 씩만 설명해주고 넘어가는 형식으로 이루어진 경우가 많았습니다. 하지만 저는 여러 번 다른 서평에서 언급했듯이 수학적인 지식이 매우 부족합니다. 데이터 사이언스의 핵심이라고 볼 수 있는 통계도 마찬가지죠. 좋은 데이터 사이언티스트가 되기 위해서는 이래서는 안됩니다. 저는 조금 돌아가는 것처럼 느껴지더라도 수학에 대해 공부하기로 마음먹었습니다.

 

보통 이런 책들에서 공통적으로 언급되는 분야들이 있더군요. 선형대수학, 통계, 확률. 여기서 선형대수학은 완벽하게는 모르더라도 기본적인 부분은 제가 알고있다고 생각했습니다. 개념만 알더라도 데이터 사이언스를 이해하는 것에는 문제가 없지 않을까해서 이제는 통계의 기초에 대해 다지고자 합니다. 앞서 데이터 사이언스에서 하고 있던 '데이터 사이언스를 위한 통계'도 간략한 설명 때문에 막히는 부분을 해소할 수가 없었습니다. 그래서 '밑바닥부터 시작하는 데이터 과학'에서 추천해 준 책 중 하나인 'OpenIntro Statistics'를 사용해 통계학 공부를 할 예정입니다.

 

오픈소스 형식으로 저술되는 책인 것 같으니 여러분들도 함께하려면 https://www.openintro.org/stat/

 

OpenIntro

Forums Ask questions, find answers.

www.openintro.org

에서 자료를 받으시면 됩니다.

 

뿐만 아니라, 인공지능은 오프라인 수업을 듣고 있습니다. 거기에서 최근에는 파이썬을 지나 넘파이와 판다스에 대해 공부하고 있는데, 너무 방대한 분량에 조금 압도되고 말았습니다. 굉장히 다양한 라이브러리와 많은 개념들이 새롭게 녹아있더군요. 그래서 어차피 판다스는 데이터 사이언스를 하는데 없어서는 안되는 부분 중 하나라고 판단하고 데이터를 다루는 연습을 할 생각입니다.

 

그래서 앞으로 데이터 사이언스에는 '통계''데이터 다루기'가 올라오게 됩니다.

 

이제 통계, 데이터 다루기, 운동, 요리 이렇게 4가지로 삶이 단순화 됐습니다. 너무 많은 것을 한 번에 하게 되네요. 꽃도 피는데 말이죠...ㅠ