Category Archives: 데이터과학 자료모음

오늘은 주제별 학습 가이드의 두번째로 데이터과학 도구의 사용법을 익히기 위한 자료를 소개한다. 우선 도구의 선택에 대한 필자의 글을 참조하기 바란다. 아래는 도구별 학습에 도움이 되는 자료들이다.

R

우선 R을 시작하려는 독자들은 다음 웹사이트에서 도움을 받을 수 있다. 특히 첫번째 자료는 엑셀 사용자가운데 R을 시작하는 사람을 위한 책이다. (1장 제공)

R을 실제로 사용하다보면 필요한 함수나 문법을 찾느라 많은 시간을 소비하게 된다. 이럴때 유용한 것이 자주 사용하는 기능을 한두장에 요약해놓은 Cheatsheet다. R을 자주 사용한다면 꼭 출력해서 보관하도록 하자.

R을 제대로 공부하기 위해서는 아래 분야별 서적을 탐독하도록 하자. 첫 세권은 Leanpub에서 무료 혹은 일정 금액을 내고 구입할 수 있으며, 나머지 책들은 온라인 버전을 공개하고 있다.

R관련해서는 양질의 한글 자료도 많다. 일부 공개된 다음 두 책으로 시작하시기를 추천한다. 저자의 홈페이지에서는 이외에도 R 및 데이터 과학에 관련된 양질의 자료를 얻을 수 있다.

엑셀

우선 데이터과학을 시작하기에 좋은 도구인 스프레드시트의 사용법과 사용상 주의사항을 다룬 사이트이다.

다음은 스프레드시트중 가장 널리 사용되는 엑셀의 사용법을 다룬 글이다.

데이터과학 자료모음 (0531)

이번주의 자료모음입니다. 이번주에는 최근에 많은 관심을 모으고 있는 딥러님과 데이터 과학 커리어에 관한 자료가 주종입니다. 여기 올린 자료는 데이터과학 자료모음 페이지에 정리되어 보관됩니다.

Deep Learning

튜토리얼

국내자료

Data Science Career

구직 / 면접 관련

데이터 과학자 인터뷰 모음

데이터과학 자료모음 (0517)

이번주의 자료모음입니다. 여기 올린 자료는 데이터과학 자료모음 페이지에 정리되어 보관됩니다.

기계학습

데이터과학 관련

데이터 과학 자료모음 (0510)

이번주의 자료모음입니다. 여기 올린 자료는 데이터과학 자료모음 페이지에 정리되어 보관됩니다.

Competitive Data Science

데이터과학을 공부하는 방법으로 컴피티션에 참가하는 것은 권할만한 방법입니다. 특히 잡서치를 하시는 분들께 이만큼 좋은 준비는 없지 않나 합니다. 이를 시작하기 위한 자료를 소개합니다.

Basics

Learning from top performers

Advice on Data Science Career

데이터 과학을 시작하시는 분들을 위한 좋은 글을 많이 보실 수 있습니다.

Data Visualization

정보시각화의 역사에 길이 남을만한 잘(못)된 시각화를 모은 페이지입니다.

데이터과학 자료모음 (0426)

통계적 추론 개념잡기

최근에 통계적 추론에 관한 글을 쓰면서 발견한 자료들입니다.

기계학습 알고리즘 결정트리

지난번에 이어 기계학습 / 통계 관련 Cheatsheet입니다.

기계학습 튜토리얼

데이터과학 자료모음 (0419)

이번주의 자료모음입니다. 여기 올린 자료는 데이터과학 자료모음 페이지에 정리되어 보관됩니다.

데이터셋

데이터과학 학습에 도움이 될만한 데이터셋입니다.

  • FiveThirtyEight의 데이터 통계학자/데이터과학자인 Nate Silver의 분석 데이터 및 스크립트가 공개
  • https://tuvalabs.com/datasets/ 교육용 데이터 확산을 이념으로 하는 스타트업에서 공개한 데이터셋. 각 데이터마다 적절한 시각화도

기계학습

기계학습 적용에 관한 조언들입니다

시각화

다양한 시각화 옵션을 빠르게 결정하게 도와주는 Cheatsheet 들입니다

  • Slide Chooser Cheatsheet – The Extreme Presentation(tm) http://buff.ly/1D4M87q 프리젠테이션 슬라이드의 내용에 맞게 레이아웃을 고를 수 있는 가이드
  • How to Choose the Right Chart http://buff.ly/1yJyyLr 데이터 유형 및 분석 목표에 따라 시각화를 고르는 방법을 설명

데이터과학 자료모음 (0412)

앞으로 매주 제가 유용하다고 판단하는 데이터과학 관련 자료를 선별해 포스팅할 계획입니다. 여기 올린 자료는 데이터과학 자료모음 페이지에 정리되어 보관됩니다.

The O’Reilly Data Show Podcast 오라일리에서 데이터 과학을 주제로 하는 Podcast 중간에 데이터과학 트렌드에 대한 DJ Patil의 인터뷰도 소개

Advice for applying Machine Learning 기계학습 모델을 디버깅하는 방법에 대한 Python 튜토리얼 Andrew Ng의 관련 강의자료도 참조

Tidy Data 주어진 데이터를 분석에 용이한 형태로 변형하는 것에 대한 Hadley교수의 논문과 R패키지

Evaluating Recommender Systems 추천 시스템(RecSys) 평가에 대한 MSR의 서베이 논문 검색(IR) 평가관련 논문은 여기여기

Probabilistic Programming and Bayesian Methods for Hackers 파이썬 Bayesian 툴킷인 PyMC를 사용한 Bayesian 기법 교재 비슷한 패키지로 R쪽에는 OpenBugs가 잘 알려져 있음