데이터과학 프로세스

DataScienceEngineering_TagCloud_800

데이터 과학을 소개하는 글은 많지만, 데이터 과학을 실제로 따라해볼 수 있는 자료는 많지 않습니다. 여기서는 자기 주변에서 데이터를 활용해 풀 수 있는 문제를 찾아내어 명확히 정의하고, 이를 위한 데이터를 수집하고, 수집된 데이터를 분석하여 결론을 이끌어내는 과정에 초점을 맞춘, 문제해결 중심의 데이터 과학 프로세스를 소개합니다.

  • 기계학습을 배우는 가장 쉬운 방법: AzureML로 집값 예측하기 최근 알파고와 인간의 대결이 화제가 되었지만, 기계학습 기법은 다양한 분야에서 널리 활용되고 있다. 여기서는 기계학습을 이용한 문제 해결의 과정을 사례로 배워보도록 하자. 기계학습의 다양한 기법 가운데 수치 형태의 속성을 예측하는 ...
  • 데이터과학 프로세스(5): 통계적 추론 “통계로 거짓말을 하기는 쉽지만 진실을 말하기는 어렵다.” – 안드레아 덩켈스(Andrejs Dunkels) 지난 글에서 살펴본 탐험적 데이터 분석을 통해서 주어진 데이터의 다양한 측면을 관찰할 수 있다. 즉 개별 속성값이 어떤 분포를 가지며, ...
  • 데이터과학 프로세스(4): 탐험적 데이터 분석 진정한 발견은 새로운 장소를 찾는 것이 아니라, 새로운 관점을 갖는 것이다. — 마르셀 프루스트 여러분의 컴퓨터에 이제 막 수집된 데이터가 도착했다. 방금 데이터에 대한 기본적인 점검도 마쳤다. 그럼 ...
  • 데이터과학 프로세스(3): 데이터 준비하기 대단한 성취의 이면에는 대부분 사소해 보이는 준비과정이 필요하다. — 로버트 슐러 데이터 수집이 끝나면 분석에 바로 사용할 수 있는 데이터를 얻게 된다고 생각하기 쉽다. 하지만 보통은, 특히 데이터를 외부에서 가져온 경우에는 ...
  • 데이터과학 프로세스(2): 데이터 수집하기 실험이 다 끝난 후에 통계학자를 부르는 것은, 의사에게 사체 부검을 부탁하는 것과 같다. 아마 통계학자는 왜 실험이 실패했는지를 알려줄 수 있을 테니까 — 로널드 피셔 문제 정의가 완료되었다면 이제 실제로 데이터를 ...
  • 데이터과학 프로세스(1): 데이터 문제 정의하기 데이터 과학의 개념에 이어 데이터 과학의 프로세스를 몇회에 나누어 소개할 생각이다. 이번 글에서는 우선 데이터 문제의 유형을 소개하고, 이어 데이터 문제를 정의하는 과정을 다룬다. 데이터 문제 정의의 구체적인 사례로 넷플릭스 ...

이 글이 마음에 드셨다면 제가 쓴 데이터 과학 입문서 헬로 데이터 과학을 만나보세요. 혹은 페이스북 페이지에서 데이터과학에 관련된 다양한 자료를 접하실 수 있습니다.