데이터과학 프로세스(2): 데이터 수집하기

실험이 다 끝난 후에 통계학자를 부르는 것은, 의사에게 사체 부검을 부탁하는 것과 같다. 아마 통계학자는 왜 실험이 실패했는지를 알려줄 수 있을 테니까 — 로널드 피셔

문제 정의가 완료되었다면 이제 실제로 데이터를 수집해야 할 차례다. 현대 통계학의 초석을 쌓은 통계학자 로널드 피셔의 말처럼 데이터 수집은 실질적인 데이터 과학이 이루어지는 첫 단계로서, 분석 단계에서 사용될 재료를 얻는 중요한 단계다. 구슬이 서말이라도 꿰어야 보배라지만, 일단 제대로 된 구슬을 모으지 못하면 보배는 상상할 수도 없을 것이다.

문제 해결을 위한 데이터를 수집하는 방법에는 크게 기존의 데이터를 구해서 사용하는 것과, 직접 데이터를 수집하는 것을 생각해볼 수가 있다. 인터넷 보급 및 데이터의 중요성에 대한 인식의 확산으로 데이터를 구하는 과정이 많이 편해졌지만 여전히 문제 해결에 꼭 맞는 데이터를 찾는 것은 쉬운 일이 아니다. 어쨌든 직접 데이터를 수집하는 노력을 들이기 이전에, 존재하는 데이터셋을 찾아보는 과정은 꼭 필요하다.

만약 적절한 데이터를 구하지 못했다면 스스로 데이터를 수집해야 할 것이다. 데이터의 수집은 생각보다 고려해야 할 사항도 많고 문제의 특성과 수집의 방식에 따라 시간과 비용이 소요되는 일이지만, 데이터가 만들어지는 전 과정을 직접 통제할 수 있는 만큼 제대로 했을 때 가장 효과적인 방법이다. 또한 이미 누군가 분석에 사용했을 기존 데이터를 활용하는 것 보다는, 존재하지 않는 현상을 데이터화 했을때 잠재적으로 더 큰 가치를 얻을 수 있다.

기존의 데이터 과학 관련 책에서는 존재하는 데이터의 분석에 치중한 나머지 데이터 수집을 간과하는 경우가 많지만 본 글에서는 주어진 문제의 해결을 위한 데이터를 수집하는 방법을 자세히 다룬다. 이제 데이터 수집 과정에 필요한 도구를 선택하는 방법, 수집 과정에서 주의해야 할 점과, 데이터 수집의 종류 및 단계를 구체적으로 알아보자. 마지막으로 수집된 데이터의 품질을 평가하는 방법을 설명한다.

데이터 수집의 기본

데이터 수집은 우리가 관심을 갖는 현상을 데이터로 옮기는 과정이다. 데이터 문제의 대상이 되는 현상의 본질을 포착하기 위해서는 여러 측면을 고려해야 하며, 다양한 환경에서 관찰해야 하는 것이 보통이다. 앞서 언급한대로 대부분의 데이터는 여러 항목과 속성으로 구성된 테이블의 형태로 표현할 수 있다. 따라서 데이터 수집은 우리가 데이터화하고자 하는 현상의 여러 측면을 각각의 속성으로 표현하고, 현상에 대한 여러 관찰 결과를 개별 항목으로 표현하는 과정이다.

예를 들어 기업에서 직원들의 만족도를 설문을 통해 데이터화하는 경우를 생각해보자. 우선 직원의 만족도에 대한 설득력있는 결론을 도출하기 위해서는 사내 다양한 직군 및 부서를 대상으로 설문을 실시해야 할 것이다. 또한, 직원의 만족도에는 업무 환경, 기업 문화, 급여 및 처우 등 여러 측면이 있을 수 있다. 따라서 직원들의 만족도에 대한 데이터는 설문지에 참여한 다양한 사람들에 대한 정보와 실제 응답 내용이 포함된 테이블의 형태를 띈다.

테이블 형태의 데이터

위 테이블에 대해 구체적으로 살펴보자. 우선 테이블의 각 열은 개별 항목이 갖는 속성에 해당한다. 이 속성은 크게 데이터가 수집된 대상 및 상황의 속성을 가리키는 차원(dimension)과 데이터 수집을 통해 관찰된 결과인 측정값(measurement)으로 나눌 수 있다. 여기서 문제와 직접 관련되는 것은 측정값이지만, 차원은 측정값을 집계하거나 비교하는데 기준이 되기에 나중에 분석 단계에서 중요한 역할을 한다.

또한 각각의 속성은 숫자/시각/카테고리/텍스트 등등의 고유한 자료형과 단위를 가진다. 이처럼 데이터의 성격을 나타내는 데이터를 메타데이터라고 하는데, 이 정보가 잘못되었을 경우 분석 단계에서 큰 낭패를 볼 수 있다. 따라서 외부의 데이터를 가져올 때에는 자료형과 단위를 꼭 정확히 확인하고, 직접 데이터를 모을 때에는 이를 꼼꼼하게 기록해두어야 한다.

테이블의 각 행은 수집의 단위가 되는 개별 항목을 나타낸다. 설문지 사례를 다시 생각해보면 개별 참가자의 설문 결과가 한 항목을 구성할 것이다. 또한 위에서 설명한 차원을 바탕으로 개별 항목을 묶는 그룹을 정의할 수 있다. 설문 데이터에서는 부서 및 직급이 그룹으로 사용될 수 있을 것이다. 이러한 그룹은 나중에 여러 분석 작업의 주요 단위가 된다.

지금까지 데이터 수집의 기본에 대해 알아보았다. 이 글에서 말하는 데이터 수집은 결국 주어진 문제에서 다루고자 하는 현상을 테이블 형테의 데이터로 표현하는 과정이다. 여기서 테이블의 개별 속성은 우리가 관심을 갖는 현상의 서로 다른 측면을 측정한 결과물이며, 개별 항목은 현상에 대한 관찰의 내용이다. 이제 데이터의 속성과 항목을 결정하는 방법을 구체적으로 알아보자.

수집의 속성 결정하기

데이터 수집의 첫단계는 수집할 데이터의 속성을 결정하는 것이다. 효과적인 분석을 위해서는 문제의 초점이 되는 현상과 이와 관련된 현상의 단편이 모두 수집에 포함되어야 한다. 주어진 문제를 해결하기 위해 필요한 데이터의 속성을 정의했다면 실제로 이런 데이터의 값을 어떻게 얻을 수 있을지를 고민해야 한다. 즉 지금까지가 무엇(what)을 수집할 것인가를 결정하는 과정이었다면, 이제 어떤 방식(how)으로 수집할지를 결정해야 한다.

이처럼 주어진 대상을 수치 혹은 기타 형태로 데이터화하는 것은 측정의 문제다. 마치 맛있는 요리의 기본이 신선한 재료이듯, 제대로 된 측정 방법을 찾는 것은 데이터 기반의 문제 해결에 있어서 중요한 요소다. 쓰레기가 들어가면 쓰레기가 나온다(Garbage in, Garbage out)는 말에서처럼, 측정값이 부정확하고 오류가 있다면 어떤 분석도 제대로 된 결과를 낼 수 없을 것이기 때문이다.

데이터를 수집하는 방법의 종류를 사람의 개입 정도에 따라 크게 자동과 수동으로 나눌 수 있다. 자동 수집은 인간의 개입 없이 데이터 수집이 이루어지는 경우를 말한다. 자동 수집에는 대부분 기계적/전자적인 장치가 사용되며, 예컨데 핏빗(FitBit)과 같은 활동량 측정기 등이 여기에 해당한다. 자동 수집은 초기에 인프라를 구축하고 나면 데이터 수집에 드는 추가적인 비용이 크지 않은 특성이 있다.

수동 수집은 데이터 수집에 사람의 노력이 개입되어야 하는 경우다. 주어진 장치를 사람이 조작해서 데이터를 얻는 경우가 수동 수집에 해당한다. 또한 설문 등을 통해 주관적인 데이터를 수집하는 경우도 수동 수집이라고 하겠다. 수동 수집은 사람이 개입하는 특성상 데이터 수집에 필요한 노력이 데이터의 양에 비례할 것이다.

자동과 수동 수집의 장단점을 좀더 생각해보자. 자동 수집은 우선 편리하고, 누락이나 오류 없이 일관되게 데이터를 얻을 수 있다. 또한 자동 수집은 수집이라는 행위 자체가 데이터에 영향을 끼치는 관찰 효과(Observer Effect)에 의한 편향을 최소화하는 장점이 있다. 따라서 비용과 정확성 측면에서 가능한 한 데이터 수집을 자동화하는 것을 권할만하다.

온라인 서비스를 비롯한 기업 환경에서의 거래 데이터 수집은 자동으로 이루어지는 경우가 많다. 특히 웹사이트 사용자의 행동은 해당 사용자의 취항이나 만족도를 판단할 수 있는 단서가 되기에, 대부분의 온라인 서비스에서는 사용자의 모든 입력 및 방문 기록을 남김없이 저장하여 분석하고, 이를 바탕으로 다양한 지표를 만들어 서비스 개선에 사용한다.

물론 측정하고자 하는 대상에 따라 이런 자동화가 항상 가능한 것은 아니며, 자동화된 수집 결과가 놓치는 부분도 많다. 예를 들어 검색 엔진에서는 사용자가 검색 결과를 클릭했는지를 알 수 있다. 하지만 실제로 클릭한 결과가 사용자에게 도움이 되는지는 클릭 여부만으로 알 수는 없다. 한참을 읽었지만 도움이 되지 않는 문서나 웹사이트도 있을 수 있기 때문이다.

반면에 수동 수집은 사람의 판단에 의존하기 때문에 사람에게 물어서 알아낼 수 있는 모든 데이터를 수집할 수 있다. 여기에는 느낌이나 감정 상태, 주관적인 만족도 등이 포함된다. 예컨데 검색 결과를 평가하는데 있어서 만약 실제 사용자에게 해당 질의에 대한 검색 결과가 만족스러운지 물어볼 수 있다면 단지 클릭 여부에 의존하는 것보다 훨씬 정확한 결과를 얻을 수 있을 것이다. 따라서 검색 회사에서는 사용자 데이터를 분석하는데 그치지 않고, 대규모의 품질 평가단을 고용하여 검색 결과에 대한 평가 결과를 얻고 있다.

또한 수집 과정에 사람이 참여하는 것이 유용한 경우도 있다. 예컨데 스스로 수집 행위에 대한 자각(awareness)를 가져야 하는 경우에는 오히려 사람의 수동적인 개입이 그런 자각을 유지하는데 도움이 될 수도 있을 것이다. 친숙한 사례로 매일 아침에 체중계에 올라가는 행위 자체가 체중 관리에 대한 주의를 지속적으로 환기시킬 것이다. 또한 국민 투표와 같은 행사는 정치적 사안에 대한 민의를 모은다는 의의 이외에도 국가에 대한 주권의식을 고취시키는 의의도 있다. 이 모든 것이 데이터 수집에 인간이 참여함으로써 얻어지는 부수적인 효과라고 할수 있다.

좋은 측정 방법의 특성

위에서 측정값을 얻는 다양한 방식을 살펴보았다. 측정 수단은 궁극적으로 데이터 문제의 종류와 성격에 따라 결정되어야 하겠지만, 여기서는 좋은 측정 수단의 공통적인 조건을 몇가지 생각해보자. 그 첫번째 조건으로 결과 측정값의 품질을 들 수 있다. 이는 다시 말하면 측정값이 우리가 측정하려는 현상을 정확히 포착하며, 그 이외에 다른 요인의 영향을 받지 않는다는 것이다. 측정값의 품질을 평가하는 기준에는 크게 분산과 편향을 들 수 있는데, 이는 다음 장에서 좀더 다룬다.

좋은 측정방법의 두번째 조건은 수집의 비용이 낮아야 한다는 것이다. 흔히 생각할 수 있는 측정의 비용으로는 측정 기기를 구입하거나 데이터를 얻는 비용이 있다. 예컨데, 체중 관리를 위해 체중계를 구입하거나, 설문 참가자에게 지급하는 수고료 등이 여기에 포함된다. 자동 수집의 경우 개별 데이터를 얻는데는 거의 비용이 들어가지 않지만, 데이터를 수집할 수 있는 준비를 하는 비용이 발생한다. 또한 데이터를 얻는 것이 데이터 과학의 궁극적인 목표는 아니기 때문에, 측정의 비용에는 그 결과를 저장하고 분석에 맞는 형태로 변환하는 노력도 포함된다.

이를 좀더 생각해보면 위에서 언급한 측정의 품질과 비용은 다양한 교환관계를 (trade-off) 지닌다는 사실을 알 수 있다. 고품질의 측정 수단을 선택하면 같은 수준의 품질을 얻기 위해 필요한 데이터의 양이 줄어들기에, 지속적인 측정에 드는 비용을 줄일 수 있는 것이다. 또한 측정 데이터를 모으고 분석하는 기능까지 갖춘 측정 장비를 사용하면 데이터 분석에 드는 수고를 절약할 수 있다. 따라서 자신의 예산과 필요에 맞는 균형점을 찾는 것이 중요하다.

수집의 환경 결정하기

데이터는 결국 어떤 환경(조건)에서 어떤 현상을 관찰하여 기록한 결과물이다. 앞에서 개별 속성의 값을 얻는 방법에 초점을 맞추었다면, 이제는 수집의 환경에 대해 생각해보자. 여기서 데이터 수집의 환경은 주어진 문제의 범위에 따라 결정된다. 즉 자신이 관찰하려는 현상을 대표할만한 환경에서 데이터를 수집해야 하는 것이다. 만약 그런 환경이 현실에 존재하지 않는다면 인위적으로 만들어보는 것도 생각할 수 있는데, 이것이 자연 과학에서 말하는 실험의 본질이다.

이를 통계학에서는 표본의 대표성(representativeness)라고 부르는데, 이 조건이 만족되지 않으면 해당 데이터를 가지고 내리는 어떤 결론도 무의미한 것이 되므로 주의해야 한다. 이를 좀더 구체적으로 알아보자. 만약 특정 시간이나 지역에서 일어나는 현상을 관찰하기 위해서는 데이터 수집에 있어서 해당 조건을 고려해야 할 것이다. 사람에게서 데이터를 수집하는 경우 어떤 문제에서 요구하는 조건을 만족하는 개인이나 조직을 수집의 대상으로 해야 하며, 해당 집단 내에서도 대표성이 있는 표본을 추출하기 위해 노력해야 한다.

표본의 대표성이 훼손된 고전적인 사례로 1936년 The Literary Digest라는 잡지에서 실시한 미국 대선 결과에 대한 예측이 자주 인용된다. 이 설문에서는 무려 2백 40만명의 사람에게 응답을 얻었지만, 민주당의 루즈벨트 후보의 당선을 예측하는데 실패했다. 루즈벨트는 62%의 실제 득표를 얻어서 대선에 승리했는데, 이를 43%로 예측했으니 무려 19%의 오차를 보인 것이다. 가히 최대 규모의 여론조사에서 거둔 최악의 예측 결과였다.

왜 이런 오차가 발생했을까? 이 잡지에서는 우편을 통한 설문을 실시했는데, 우선 우편 발송자 명단을 구하기 위해 전화번호부와 잡지 구독자 명단을 사용했다. 그런데 1936년에 전화를 사용하며, 특정 잡지를 구독하는 사람들은 어느 정도 경제적 여유가 있는 계층일 것이다. 따라서 설문 조사의 대상에는 루즈벨트의 지지층인 중산층 이하의 계층이 실제보다 적게 포함되었을 것이라고 추측해볼 수 있다.

또한 이 설문에 대한 응답률은 24%에 불과했는데, 이때 설문에 응답한 사람들이 응답하지 않는 사람들과 정치적 성향에서 차이를 보일 가능성을 배제할 수 없다. 정치색이 뚜렷하지 않은 대부분의 유권자들은 이런 설문에 적극적이지 않을 것이기 때문이다. 결론적으로 위 사례는 표본의 대표성의 훼손되었을 때 어떤 결과를 가져올 수 있는지 잘 보여준다. 이제 데이터 수집 환경의 대표적인 유형에 대해 자세히 알아보자.

관찰형 연구와 통제형 실험

데이터 수집의 환경에 있어서 가장 기본적인 것은 자연 상태의 데이터를 그대로 수집하는 것이다. 이를 과학에서는 관찰형 연구(Observational Study)라고 하는데, 이는 문자 그대로 탐구 대상이 되는 현상에 어떤 인위적인 조작도 없이 데이터를 수집하는 것을 가리킨다. 이는 사회학과 같이 본질적으로 관찰 대상에 영향을 끼치기 어려운 학문에서 널리 쓰이는 방식이다.

예를들어 우열반 편성이 학업 성취도에 미치는 영향을 데이터 분석을 통해 연구하려는 경우를 생각해보자. 이상적으로는 각 학교에 무작위로 우열반 편성을 시행하여 여기에 속한 학교와 그렇지 않은 학교의 학업 성취도를 비교해볼 수 있다. 하지만 현실적으로 이런 정책은 해당 학교의 여건과 의사에 맞게 실시될 것이며, 예컨데 예산이 좀더 풍부한 학교의 참가율이 더 높을 것이다. 따라서 우열반의 효과를 분석하기 위해서는 우열반 편성에 참가한 학교들이 갖는 다른 특성도 고려해야 할 것이다. ^[이처럼 관찰형 연구의 데이터에서 나타나는 갖가지 편향을 제거하기 위한 다양한 통계적 기법이 존재한다.]

이처럼 자연 상태에서 얻어진 대부분의 데이터에는 여러가지 속성간의 관계가 뒤섞여있는 경우가 많은데, 이런 경우 데이터에서 명확한 결론을 유도하기가 어렵다. 따라서 자연과학에서는 인과간계를 밝히기 위한 통제형 실험(Controlled Experiments)을 수행한다. 통제형 실험에서는 어떤 특정한 조건을 인위적으로 변화시키며 그 변화가 우리가 관심을 갖는 지표에 미치는 영향을 관찰한다. 이때 다른 변인의 변화는 철저히 통제되기 때문에 우리가 변화시킨 요인이 갖는 영향만을 순수하게 분리해서 관찰할 수 있다.

이런 통제형 실험은 자연과학 뿐아니라 데이터에 기반에 각종 의사결정을 내려야 하는 실무에서도 널리 사용된다. 예를 들어 온라인 서비스의 품질 개선을 위해 많이 사용되는 A/B테스트의 경우, 무작위로 추출된 사용자 그룹을 두개 만든다. 그리고 그 중 하나에 현재의 서비스를, 그리고 다른 그룹에 신규 개발된 서비스를 제공하고 사용자의 행동이 두 그룹간에 어떤 차이를 보이는지를 관찰한다. 만약 새로 개발된 검색 알고리즘에 노출된 사용자들이 기존 알고리즘에 비해 좀더 원하는 결과를 빨리 찾았다면 새로운 알고리즘이 더 낫다는 결론을 내릴 수 있을 것이다.

수집할 데이터의 양 결정하기

어떤 조건에서 데이터를 수집해야 할지를 결정했다면, 각 조건에서 데이터를 얼마나 모을지를 결정해야 한다. 이는 통계학에서 표본량(sample size) 결정이라고 부른다. 표본량의 결정 역시 절대적인 기준이 존재하는 부분은 아니다. 문제 정의 단계에서 설정한 목표를 달성하기에 충분한 양이면 된다. 그렇다면 ‘충분함’을 어떻게 판단할 수 있을까? 이는 분석의 목표에 따라 달라지는 부분이다. 여기서는 앞서 설명한 몇가지 분석 목표에 대해 표본량을 결정하는 방법을 알아보자.

현상의 이해 분석의 목표가 현상의 이해라면 일반적으로 적절한 표본량에 대한 기준을 세우기도 쉽지 않고, 따라서 최소한의 데이터로 시작하는 것이 바람직하다. 여기서 한가지 고려사항은 분석 대상이 되는 현상을 가능한 모든 환경에서 관찰하였는지의 여부다. 예컨데 웹 사용자 데이터와 같이 시간성이 중요한 분석이라면 데이터 수집의 단위를 적어도 일주일 정도로 가져가는게 좋다. 주중과 주말에 사용자의 이용 패턴이 달라질 수 있기 때문이다. 또한 여러 부서로 이루어진 조직에서 설문을 실시하여 데이터를 수집하는 경우라면 각 부서에서 최소 인원수는 확보해야 할 것이다.

현상의 일반화 주어진 현상으로부터 일반적인 결론을 유도하려고 하는 경우, 필요한 데이터의 양을 비교적 정확히 계산할 수 있다. 예컨데 통계적 추론의 정확도를 나타내는 신뢰구간의 넓이는 표본량의 제곱근에 반비례하고, 추정하려는 지표의 표준편차에 비례한다. 통계적 추론을 위한 표본량 계산은 나중에 자세히 다룬다.

아래 차트는 정규분포를 따르는 모집단의 평균에 대한 신뢰구간이 표본의 크기에 따라 어떻게 좁아지는지 나타낸다. 그림에서 실선과 점선은 각각 표준편차가 각각 1과 2인 정규분포에 대한 결과다. 표본 크기가 커질수록, 그리고 모집단의 표준편차가 작아질수록 신뢰구간이 좁아지는 것을 알 수 있다.

표본수, 표준편차, 신뢰구간의 관계

위 차트에서 알 수 있는 또다른 점은 표본 크기 50까지는 신뢰구간이 현격히 좁아지지만, 그 이후부터는 표본 크기를 증가시켜도 그다지 신뢰구간에 변화가 없다는 사실이다. 이미 충분한 데이터가 있다면, 추가적인 데이터에서 얻어지는 가치는 그다지 크지 않다는 사실을 여기서도 알 수 있다.

현상의 예측 현상을 예측할 수 있는 모델을 만들기 위한 데이터의 양은 문제 및 모델의 특성에 따라 다르며, 실제 학습된 모델을 평가해보기 전에는 예측하기가 어렵다. 하지만 어느 정도까지는 데이터가 많을수록 학습 모델의 정확도가 개선되므로, 필요한 경우 추가적인 데이터 수집을 고려할 수 있다. 기계학습 모델이 얼마나 많은 데이터를 필요로 하는지는 나중에 자세히 다룬다.

데이터 수집시 기타 유의사항

데이터 수집 단계에서 가장 중요한 덕목은 일관성이다. 데이터를 모으는 과정에서 수집 방법이 바뀐다면 결과의 품질을 보장할 수 없기 때문이다. 따라서 중간에 더 좋은 수집 방법이 생각났다고 하더라도 처음에 결심한 기간 동안은 동일한 방법을 유지해야 한다. 개선된 수집 방법을 적용하는 것은 데이터 분석이 끝나고 다시 수집을 시작할 때 생각해볼 문제다. 이런 이유에서도 명확한 문제 정의를 갖는 것은 중요하다. 뚜렸한 지향점이 없으면 일관성을 유지하기 어렵기 때문이다.

하지만 이는 무조건 초기의 계획을 고수해야 한다는 말은 아니다. 계획한 기간이 끝나기 전이라도 수집 목표가 달성되었다면 그 시점에서 수집을 그만둘 수 있는 유연성도 필요하다. 이러한 수집의 조기 종료는 시간과 비용을 줄이는 효과적인 방법인데, 이런 종류의 의사결정을 내리는 방법에 대해서는 다음 장에서 자세히 설명한다. 물론 같은 원리로 수집 목표가 달성되지 못한 경우에는 예상 기간이나 비용을 초과해서라도 그 목표를 달성해야 할 수도 있다.

또한 많은 수집이 전체 현상에서 추출한 표본을 대상으로 이루어지는데, 분석 과정에서의 오류를 최소화하기 위해서는 표본 선정의 무작위성(randomness)이 보장되어야 한다. 이는 다시 말하면 수집이 이루어진 시간, 장소, 참가자 등의 선정에 수집 주체의 주관이 반영될 여지가 최소화되어야 한다는 뜻이다. 무작위성이 중요한 이유는 다음 장에서 소개할 대부분의 분석 방법이 무작위로 추출한 표본을 가정하기 때문이다.

무작위 추출의 사례로 ‘Flow’의 저자 미하이 칙센트미하이 교수가 개발한 경험 추출법을 (Experience Sampling) 들 수 있다. 이는 실험 참가자가 일상에서 느끼는 평균적인 감정 상태를 측정하기 위한 방법으로, 참가지는 미리 정해지지 않은 무작위의 시점에 울리는 알람을 신호로 자신의 감정을 기록하게 된다. 이 방법을 통하여 참가자는 자신의 기분이나 주변 상황에 영향이 측정된 감정에 주는 영향을 최소화할 수 있습니다.

이처럼 데이터 수집에는 생각보다 고려할 사항이 많다. 따라서 효과적인 데이터 수집을 위해서는 앞서 언급했듯이 수집된 데이터를 지속적으로 모니터링할 수 있는 시스템이 필요하다. 수집된 데이터를 보면서 문제점도 조기에 파악할 수 있고, 현재까지 수집된 데이터에 대한 실시간 분석을 통해 데이터 수집을 언제 중단할지에 대해서도 결정할 수 있기 때문이다. 이런 이유에서 많은 측정 장치 및 소프트웨어는 수집된 데이터를 모니터링할 수 있는 수단을 제공한다.

추신: 피드백을 주신 박지영, 최창순 님이외에 익명의 독자분들께 감사의 말씀을 전합니다. 이 글을 끝까지 읽으셨다면 다음 주소에서 피드백을 남겨주시기 바랍니다.