데이터로 ‘과학’하기: 데이터 과학자의 자질과 태도

지난 글에서 데이터 과학의 ‘데이터’에 대해 알아보았다. 이번에는 데이터를 가지고 ‘과학’을 한다는 것이 어떤 의미인지 생각해보자. 과학의 일반적인 정의는 어떤 대상을 탐구하여 좀더 명확한 지식을 얻는 것이다. 이를 좀더 현실적인 관점에서 생각해보면 과학은 우리가 당면한 문제를 해결하는 수단으로서 사용된다. 여기서 문제는 어떤 의사결정을 내리거나, 목표 달성을 위한 방법을 찾거나, 혹은 알려지지 않은 현상을 예측하는 모델을 만드는 것 등을 모두 포함한다.

또한 구체적인 행위(혹은 프로젝트)로서의 과학에는 대부분 주어진 기간과 예산, 그리고 ‘고객’ — 해당 프로젝트를 요청한 개인이나 조직이 있다. 따라서, 데이터를 통한 문제해결이 효과를 거두기 위해서는 우선 주어진 기간과 예산이라는 제약조건을 준수하고, 그 결과를 고객과 성공적으로 소통할 수 있어야 한다. 예를 들어 태풍의 진로를 예측하는 모델은 태풍이 실제로 접근하기 전에 답을 내놓지 않으면 아무 소용도 없을 것이다. 기껏 내놓은 해결책이 고객의 반발에 부딛히는 경우에도 이를 효과적으로 설득할 수 있어야 한다.

이를 종합하면 데이터 과학은 데이터에 근거하여 대상을 탐구하고, 이를 바탕으로 당면한 문제를 주어진 제약하에서 풀어내려는 노력으로 정의할 수 있겠다. 여기서도 중요한 점은 과학은 ‘문제’에서 출발하며, 데이터는 문제를 풀기 위한 수단이라는 것이다. 또한 현실 세계의 데이터 과학 프로젝트는 주어진 제약조건 하에서 고객이 요구하는 산출물을 만들어내야 한다. 이점을 제대로 이해하지 못하면 앞에서 지적한 대로 지나치게 많은 데이터를 가지고 씨름하는 우를 범할 수 있다.

데이터 과학의 단계

위 정의에 근거한 데이터 과학의 일반적인 단계는 다음과 같다.

  1. 주어진 문제를 명확히 정의한다.
  2. 문제를 풀기 위한 데이터를 구한다.
  3. 데이터를 가공하고 분석하여 해결책을 유도한다.
  4. 해결책을 여러가지 방식으로 구현한다.
  5. 관계자에게 결과를 적절한 형태로 소통한다.

다음에 위의 각 단계를 상세히 설명하겠지만, 여기서는 각 단계를 간단히 짚어보자. 우선 (1) 문제 해결이 목표인만큼 문제 정의에서 출발한다. 또한, (2) 문제 해결에 적합한 데이터를 필요한 만큼 구해야 할 것이다. 데이터가 존재하는 경우에는 기존의 데이터에서 필요한 부분을 추출하고, 그렇지 않은 경우에는 직접 수집하면 된다. (3) 수집 및 추출된 데이터는 대부분 적절한 가공 과정을 거쳐야 다양한 분석 작업에 사용할 수 있다. 가공된 데이터를 가지고 시각화 및 분석을 통해 해결책을 유도할 수 있다.

여기까지가 문제 정의에서 해결책을 유도하는 과정이다. 만약 단순히 해결책을 찾는 것이 목표라면 여기서 멈출 수 있겠지만, (4) 실제로 대부분의 문제는 그 해결책을 현실 세계에서 어떤 식으로든 구현해내야 하는 것이 보통이다. 예컨데 이메일 스펨을 극복하는 것이 목표라면, 데이터를 분석해서 스팸의 패턴을 찾아낸 후에는 실제로 작동하는 스펨 필터를 구현해서 메일 시스템에 통합해야 하는 것이다. 그리고, 기업 등의 조직 환경에서 문제를 해결하는 경우에는 (5) 문제 해결의 결과를 관계자에게 적절히 소통하는 작업도 필수적이다.

물론 현실 세계의 문제를 해결하는 일이 이렇게 단순하게(straightforward) 이루어지지는 않는다. 보통 문제 정의 단계서부터 다양한 이해당사자와 의견 조율을 거쳐야 하고, 데이터를 제대로 구하지 못해 목표를 수정해야 하는 경우도 비일비재하다. 또한, 데이터를 분석하다보면 미처 고려하지 못한 사항을 발견하거나, 관련된 문제를 발견하기도 한다. 해결책은 찾았지만 구현 및 소통 단계에서 어려움에 부딛히는 경우도 많다. 즉, 데이터 기반의 문제해결 과정에는 다양한 난관이 존재한다.

따라서 위에서 설명한 (1)~(5)까지의 단계는 가이드라인 정도로 생각하는게 옳다. 보통은 각 단계가 몇번은 반복되어야 다음 단계로 넘어갈 수 있기 때문이다. 심지어는 수집 단계에서의 오류가 분석 단계에서 발견되어 다시 데이터를 모아야 하는 경우도 비일비재하다. 이런 의미에서도 앞서 설명한 스몰데이터 위주의 린(Lean)한 접근방식이 필수적이다. 불확실성이 큰 문제해결의 초기 단계에 시간과 노력을 많이 기울이는 대신, 가벼운 이터레이션(iteration)을 여러번 반복하는 것이 해결책에 훨씬 효율적으로 다가갈 수 있기 때문이다.

이쯤 이야기하면 ‘데이터과학이 힘든 거구나’ 하는 독자가 있을 것이다. 하지만 이러한 불확실성은 데이터과학의 본질을 생각해보면 너무나 당연한 일이다. 과학 자체가 기존에 뚜렷한 해결책이 없는 문제를 풀려는 노력이고, 데이터를 사용한다는 것은 모든 현상을 설명하는 이론이 존재하지 않기에 경험적 접근을 필요로 한다는 뜻이기 때문이다. 하지만 ‘머니볼’의 [@MBALL] 빌리빈 단장이 데이터 기반의 선수선발로 메이저리그를 뒤흔들었듯, 불확실성이 클수록 그에따른 보상도 클수 있다는 것을 유념하자.

데이터 과학자의 자질

지금까지 데이터 과학의 프로세스를 알아보았다. 그렇다면 이런 일을 하는 데이터 과학자는 어떤 사람이고, 어떤 자질이 요구되는가? 사실 전통적인 과학자나 데이터 분석가도 이런 업무에 종사한다고 볼 수 있지 않을까?

위 단계를 바탕으로 과학자, 데이터 분석가, 그리고 데이터 과학자와의 관계도 정의할 수 있다. 우선 과학자는 가설을 검증하여 이론화하기 위한 수단으로 데이터를 모으고 분석하는 사람들이다. 이는 앞장에서 설명한 단계의 (1)~(3)에 해당하는 과정이다. ^[각주] 또한 (좁은 의미의) 데이터 분석가는 주어진 데이터를 분석하여 가치있는 결론을 유도하는 사람들이다. 이는 주로 (3)에 해당한다. 또한 조직의 규모가 커질수록 개발자, 디자이너, 매니저 등 각 부분을 담당하는 전문가가 따로 있을 것이다.

과학자, 데이터 분석가, 데이터 과학자의 역할 차이

과학자, 데이터 분석가, 데이터 과학자의 역할 차이

이처럼 전통적인 의미의 과학자나 데이터 분석가가 앞서 설명한 단계의 일부에 초점을 맞추는 것에 반해, 데이터 과학자는 문제 정의에서부터 데이터 수집과 분석, 해결책 구현, 그리고 커뮤니케이션에 이르는 문제 해결의 전단계에 관여한다는 특징이 있다. 데이터 과학자가 이렇게 다양한 역할을 요구받는 것은 문제 해결의 각 단계가 밀접하게 연관되기 때문이다. 예컨데, 제대로 된 문제 정의와 데이터의 수집 과정을 거지치 않고는 효과적인 분석이 이루어지기 힘들며, 해결책의 구현과 소통을 위해서는 분석 과정에 대한 이해가 필수적인 것이다.

하지만 한 개인이 이 모든 분야의 전문가가 된다는 것은 거의 불가능에 가깝다. 그렇다면 현업의 데이터 과학자들은 어떻게 이를 대처하고 있을까? 최근에 오라일리에서 발표한 자료에 따르면 [@harris13] 데이터 과학자의 유형을 크게 데이터 비즈니스맨/창조자/연구자/개발자의 4가지로 나누고 있다. 예컨데 데이터 개발자는 주 업무는 개발자이면서 데이터 과학의 전 프로세스에 관여하는 사람이다.

데이터 과학자의 유형

데이터 과학자의 유형

또한 아래 차트를 보면 각 유형의 전문가들은 서로 다른 종류의 스킬셋을 개발하고 있는 것을 볼 수 있다. 예컨데 데이터 비즈니스맨의 경우 비즈니스 스킬의 비중이, 데이터 연구자의 경우 통계 스킬의 비중이 압도적으로 높다.

데이터 과학자의 유형별 스킬셋의 분포

데이터 과학자의 유형별 스킬셋의 분포

즉, 실제 데이터 과학자들도 모든 분야에 다 전력투구하기보다는 자신의 배경과 업무에 맞는 역할을 찾고, 그 역할에 집중하려고 노력하는 것을 볼 수 있다. 자신의 핵심 스킬을 중점적으로 갈고 닦되, 다른 분야에도 관심을 갖고 배우는 소위 T자형 인재가 되어야 하는 것이다. 모든 개인에게 주어진 시간은 한정적이고, 현업에서는 대부분 다른 분야의 전문가와 협업한다는 사실을 감안하면 이는 현실적인 선택이다. 특히 위 차트에 다르면 데이터 비즈니스맨과 데이터 연구자의 경우 그 집중도가 높다.

이처럼 협업이 중요시되는 업무의 특성상 데이터 과학자에게 높은 수준의 커뮤니케이션 스킬이 필수적이다. 또한 앞서 밝힌대로 데이터 기반의 문제해결은 분질적으로 불확실성이 크고, 이를 위해 요구되는 도구와 기술 역시 하루가 다르게 진화하고 있다. 따라서 데이터 과학자에게는 상황 변화에 따라 문제 접근의 방식을 바꿀 수 있는 유연성과, 필요에 따라 다양한 툴을 배우거나 심지어는 만들어낼 수 있는 학습능력이 요구된다. [@Davenport12]

데이터 과학을 시작하기 위한 태도

앞에서 살펴본대로 데이터 과학자에게는 다양한 자질이 요구된다. 그렇다면 이런 자질을 극대화할 수 있는 태도는 무엇일까? 우선 데이터 과학자는 문자 그대로 ‘과학’을 하는 사람이다. 현상을 종합하여 그 본질을 밝히는 과학자로서의 태도를 가져야 한다. 하지만 현업에 종사하는 데이터 과학자는 주어진 예산과 기한내에 문제에 대한 실용적인 해결책을 찾아내는 비즈니스맨과 공학자의 면모도 갖추어야 한다. 이 중 문제 해결 단계별로 특히 중요한 태도로 다음 몇가지를 들 수 있다.

호기심과 관찰력 우선 문제 탐색 및 정의 단계에서는, 주변 현상에서 데이터를 통해 해결할만한 문제를 찾아내는 호기심과 관찰력이 필요하다. 일단 문제가 정의된 후에는 문제 해결에 단서가 될만한 데이터를 최대한 찾아낼 수 있어야 할 것이다. 셜록 홈즈는 사실적 증거에 기반하여 미궁에 빠진 사건을 해결하는 능력으로 유명하다. 고객의 문제에 대한 데이터 기반의 해결책을 찾아야 하는 데이터과학자 역시 명탐정이 되어야 하지 않을까?

냉정함과 열린 마음 문제 정의가 끝나고 데이터를 수집 및 분석하는 단계에서는 주관을 최대한 배제하고 객관적인 관점에서 데이터를 바라볼 수 있는 냉정함과 열린 마음이 필요하다. 즉 자신의 관점을 유지하되, 데이터가 밝히는 증거를 자신의 주관과 입장보다 우선시해야 한다. 이에 관련하여 데이터 과학 커뮤니티에서 잘 알려진 격언이 있다.

데이터가 직접 말하게 하라.

이처럼 데이터를 통해 문제를 해결하려는 사람이라면 자신의 주관이 결과물에 투영되는 것을 최소화해야 한다. 이는 법을 집행하는 책임을 가진 판사에게 높은 도덕적 기준이 요구되는 것과 같은 이치다. 데이터의 힘을 빌어 문제를 해결해야 할 책임을 부여받는 데이터 과학자가 데이터의 힘을 남용한다면 훨씬 큰 피해를 끼칠 수 있기 때문이다. 2005년에 나라 전체를 발칵 뒤집으며 학계 전체에 대한 불신을 낳은 황우석 교수 사태를 기억한다면, 데이터 조작의 유혹이 얼마나 개인과 사회에 치명적인 피해를 가져오는지 알 수 있다.

끈기와 열정 흔히 과학자, 혹은 데이터 과학자를 생각하면 엄청나게 쌓여있는 데이터를 보고 섬광처럼 빛나는 통잘력을 발휘하여 단숨에 해결책을 찾아내는 광경을 떠올릴지도 모르겠다. 하지만 앞서 설명했듯 데이터 분석 및 모델링은 데이터 과학자의 업무중 일부에 해당하며, 잘 정리된 데이터가 분석되기만을 기다리는 상황은 현업에서는 좀처럼 발생하지 않는다.

데이터 과학자들의 업무 프로세스를 최근 기사에서도 데이터 과학자는 약 80%의 시간을 분석을 위한 데이터를 모으고 준비하는데 사용한다고 밝히고 있다. [@lohr2014big] 또한 앞서 설명했듯이 현업에서의 데이터 과학은 문제정의부터 의사소통까지의 전 과정이 끊임없이 반복되는 지난한 과정이다. 이처럼 데이터 과학의 실상을 알고나면 가장 중요한 자질이 ‘끈기’라는 생각을 하게 된다. 그리고 이런 끈기는 열정이 없이는 지속되기 어려운 것이다.

맺음말

이번 글에서는 데이터를 가지고 ‘과학’을 한다는 의미를 살펴보았다. 데이터 과학의 프로세스와, 이에 관련화여 데이터 과학자의 업무 및 요구되는 자질과 태도를 설명했다. 데이터 과학과 같이 광범위하고 빠르게 변화하는 분야에 대한 글을 쓴다는 것은 조심스러운 일이지만, 이번 글이 독자 여러분의 이해에 도움이 되기를 바라는 마음이다. 데이터과학자가 되는 과정에 대해서는 많은 자료가 있는데, 데이터과학 자료모음의 관련섹션을 참고하기 바란다.

추신: 이 글은 전희원 / 박미라 님의 피드백을 거쳐 작성되었습니다. 제 글의 초고는 독자그룹 여러분들께 먼저 보내드립니다.

참고문헌

Davenport, Thomas H, and DJ Patil. 2012. “Data Scientist: The Sexiest Job of the 21st Century.” Harvard Business Review Magazine.

Harlan Harris, Marck Vaisman, Sean Murphy. 2013. “Analyzing the Analyzers: An Introspective Survey of Data Scientists and Their Work.” O’Reilly Free Report.

Lewis, Michael. 2004. Moneyball: The Art of Winning an Unfair Game. WW Norton & Company.

Lohr, Steve. 2014. “For Big-Data Scientists, Janitor Work Is Key Hurdle to Insights.” The New York Times 17.