데이터과학 프로세스(5): 통계적 추론

“통계로 거짓말을 하기는 쉽지만 진실을 말하기는 어렵다.” – 안드레아 덩켈스(Andrejs Dunkels)

지난 글에서 살펴본 탐험적 데이터 분석을 통해서 주어진 데이터의 다양한 측면을 관찰할 수 있다. 즉 개별 속성값이 어떤 분포를 가지며, 주어진 속성간에 어떤 상관관계가 존재하는지 등을 알 수 있다. 하지만 많은 경우 데이터 분석의 목표는 관찰된 데이터를 넘어서 그 근간에 있는 현상에 대한 더 나은 이해에 도달하는 것이다. 즉, 부분을 통해 전체에 대한 판단을 내리는 일종의 ‘추론’이 필요한 것이다.

통계학에서는 주어진 데이터를 표본(sample), 데이터가 대표하는 현상을 모집단(population)이라고 하며, 표본을 바탕으로 모집단의 특성에 대한 결론을 유도하는 것을 통계적 추론(statistical inference)이라고 부른다. 즉 통계적 추론은 통계 이론을 바탕으로 한 현상의 일반화하고 하겠다. 현상에 대한 관찰에서 일반화할 수 있는 지식을 이끌어내는 것은 과학의 본령이니, 통계적 추론은 데이터 ‘과학’의 본질과도 맞닿아 있다고 하겠다.

통계적 추론은 제한된 관찰(표본)을 바탕으로 모집단에 대한 일반적인 결론을 유도하려는 시도이기에 본질적으로 불확실성을 수반한다. 따라서 통계적 추론에 속하는 많은 기법들은 이런 불확실성을 계량화하려는 노력이다. 예컨대 탐험적 분석에서 표본 데이터의 평균을 구했다면, 통계적 추론에서는 표본이 추출된 대상이 되는 모집단의 평균값이 어떤 범위에 존재할 수 있는지를 계산할 수 있다. (신뢰 구간) 또한, 실험 데이터에서 두 집단 사이의 측정값에 차이가 관찰되었다면, 통계적 추론에서는 과연 이 차이가 우연에 의한 것인지 유의미한 것인지를 밝혀낼 수 있다. (가설 검정)

언뜻 마법처럼 들리는 통계적 추론을 가능하게 하는 것은 주어진 현상에 관한 통계적 모델이다. 주어진 현상이 어떤 모델에서 의해 발생했다고 가정하고, 그 모델에서 발생한 일정량의 결과물을 안다면 (표본), 그 모델에서 일반적으로 어떤 현상이 발생할지를 예측할 수 있는 것이다. 따라서 통계적 추론은 주어진 현상에 대한 가정과 데이터를 사용해 이런 통계적 모델을 만들고, 여기서 다양한 결론을 도출해내는 과정이다.

img/ch3_inf_sample_model.png

통계적 추론은 데이터를 통해 현상의 본질을 들어다보려는 노력

이 글에서는 데이터 과학을 시작하는 여러분들이 알아야 할 통계적 추론의 원리와 실제를 자세히 다룬다. 우선 통계적 추론을 가능하게 하는 통계적 모델의 주요 유형을 모수적 방법과 비모수적 방법으로 나누어 알아보고, 널리 쓰이는 통계적 추론의 기법인 신뢰구간과 가설검정의 과정을 자세히 살펴본다. 이 글에서 사용된 데이터와 차트는 이곳에서 R코드와 함께 제공된다. 이 글을 읽은 여러분들이 주어진 데이터에서 다양한 종류의 결론을 도출하는 능력을 키울 수 있기를 희망한다.

(이 글은 데이터 과학의 프로세스 시리즈의 일부입니다.)

통계적 추론의 원리

앞서 통계적 추론은 표본을 바탕으로 모집단에 대한 결론을 유도하는 과정이라고 정의했다. 표본은 모집단에서 추출된 것이니, 충분히 많은 수의 표본이 있다면 모집단에 대해 정확히 이해할 수 있을 것이다. 하지만 우리에게 주어진 표본은 하나뿐이다. 그렇다면 어떻게 표본 하나에서 모집단에 관한 추론을 할 수 있을까?

이런 추론이 성립하기 위해서는 모집단의 특성 및 모집단에서 표본이 추출되는 과정에 대한 가정이 필요하다. 이를 안다면 반대로 표본에서 모집단의 특성을 유추해낼 수 있을 것이기 때문이다. 통계학에서는 이를 통칭하여 통계적 모델이라고 정의한다. 통계적 추론의 기법은 통계적 모델의 유형에 따라 크게 모수적 방법(parametric method)와 비모수적 방법(non-parametric method)로 나눌 수 있다. 아래 그림은 두 방법을 간단히 요약한다.

img/ch3_inf_methods.png

우선 모수적 방법은 표본이 생성된 과정에 대한 확률 분포를 알고 있거나 이를 추측할 수 있다고 가정한다. 확률 분포는 어떤 불확실한 사건의 가능한 결과와, 각 결과에 해당하는 확률의 분포다. 사건의 종류에 따라 정규 분포, 이항 분포 등 다양한 확률 분포가 존재한다. 여기서는 동전 던지기와 같이 두 가지 결과가 존재하는 사건으로 쉽게 설명되는 이항분포를 자세히 알아보자.

예컨대 주어진 표본이 p의 확률로 앞면이 나오는 동전을 n번 던져서 앞면이 나오는 횟수라고 하자. 그럼 우리가 모집단에 대해서 알아야 할 것은 동전을 던진 횟수 n과, 동전의 특성을 나타내는 p라는 값뿐이다. 일단 n과 p를 구할 수 있다면 여기서 얼마든지 추가적인 표본을 만들어낼 수 있기 때문이다. 여기서 확률 분포를 규정하는 값 n과 p를 모수(parameter)라고 한다.

하지만 우리가 관심을 갖는 현상이 동전이나 주사위 던지기의 결과가 아닌 이상 표본을 생성한 확률 분포를 정확히 알 수 있는 경우는 많지 않을 것이다. 다행히 우리가 관심을 갖는 통계값이 평균이고, 표본의 크기가 어느 정도 이상이라면 이 표본의 평균값은 정규분포를 (Normal Distribution) 따른다는 사실이 알려져 있다.

흔히 종모양에 비유하는 정규분포는 위 그림에서와 같이 평균값 주위로 대부분의 값이 모여있는 대칭형의 확률 분포다. 통계적 추론은 평균을 대상으로 하는 경우가 많기 때문에 모수적 방법은 쓸모가 많다. 주어진 표본의 평균과 표준편차만 구할 수 있으면 표본 평균이 이루는 분포를 구할 수 있기 때문이다.

하지만 우리가 관심을 갖는 통계값이 평균이 아니거나 (예: 중간값) 주어진 표본의 크기가 충분치 않은 경우 해당 통계값에 대해 정규분포를 가정할 수 없다. 이런 경우 비모수적 방법의 일종인 표본 재추출법(re-sampling)을 사용할 수 있다. 이는 요약하면 주어진 표본이 모집단이라고 가정하고, 모집단에서 (즉, 원래 우리에게 주어진 표본에서) 표본을 무작위로 반복 추출해서 해당 통계값의 분포를 만드는 기법이다. 즉 반복 추출을 통해 하나의 표본을 여러 표본의 집단으로 확장하는 것이다.

(주: 표본이 모집단이라는 가정이 합리적인 이유는 표본이 모집단에서 무작위로 추출된 결과이고, 따라서 모집단은 결국 크기가 아주 큰 표본에 불과하기 때문이다.)

이 두 방법은 서로 다른 가정에서 출발한다. 모수적 방법에서는 모집단이 특정한 분포를 가진다고 가정하지만, 표본 재추출법에서는 주어진 표본이 모집단이라고 가정하는 것이다. 모수적 방법의 가정의 성립하는 경우에는 간단한 연산으로 통계적 추론을 할 수 있으며, 그렇지 않은 경우에는 비모수적 방법을 사용하면 된다. 이제 모수적 방법과 비모수적 방법을 자세히 알아보자.

모수적 방법: 중심극한정리

앞서 설명한대로 모수적 방법에서 일반화의 문제를 풀기 위해 주로 사용하는 기법은 주어진 현상의 발생을 묘사하는 확률적인 모델을 만드는 것이다. 동전을 던졌을 때 앞면이 나올 개수를 설명하는 이항분포(binomial distribution), 우리가 흔히 알고 있는 정규분포(Normal Distribution) 등이 모두 여기서 속한다. 표본을 가지고 주어진 현상을 설명할 수 있는 통계적 모델을 만들 수 있다면, 이를 바탕으로 모집단에 대한 다양한 결론을 유도할 수 있을 것이라는 논리다.

문제는 우리가 다루고자 하는 문제와 데이터의 유형이 너무나 다양하며, 잘 알려진 현상이 아닌 이상 꼭 들어맞는 확률 모델을 찾기가 쉽지 않다는 점이다. 그렇다면 통계 이론이 쓸모가 없을까? 다행히도 통계학에서는 우리가 추론을 하고자 하는 대상 지표가 평균인 경우에는 원래 값의 분포에 관계없이 해당 표본의 평균값은 정규분포를 따른다는 결과가 알려져 있다. 통계학에서는 이를 중심극한정리(Central Limit Theorem)라고 한다.

좀더 구체적으로, 이는 우리가 구하고자 하는 통계값이 충분한 수의 표본으로부터 (보통 30을 기준으로 한다) 계산된 평균값인 경우, 원래 개별 측정 값의 분포와 관계없이 이 평균값의 분포는 정규분포를 따른다는 것을 의미한다. 이런 표본 평균의 분포를 표본 분포라고 (sampling distribution) 하는데, 표본 분포의 평균은 우리가 가진 표본의 평균값을, 그리고 표본 분포의 분산은 우리가 가진 표본의 분산을 표본의 수로 나는 것과 같다.

이를 그림을 통해 알아보자. 모집단 $P$에서 $n$개의 원소를 추출해서 만든 표본의 평균이 $E_k$이고 표준편차가 $\sqrt{V_k}$라고 가정하자. 그러면 중심극한정리로부터 이렇게 $n$개의 표본으로 이루어진 표본집합의 평균은 정규분포를 가지며, 이 정규분표의 평균이 $E_k$이고 표준편차가 $\sqrt{V_k/n}$이라는 사실을 알 수 있다. 이처럼 표본 하나의 평균과 분산으로부터 $n$의 크기를 갖는 표본 집합의 평균이 갖는 분포를 구하는 것이 통계적 추론의 핵심이다.

통계적 추론의 많은 기법은 대부분 표본 평균의 불확실성을 바탕으로 하기 때문에, 표본평균의 분포를 구하는 것은 나중에 다룰 신뢰구간이나 가설 검정의 기반이 된다. 표본 분포의 표준편차가 표본의 표준편차에 비례한다는 사실은 표본 자체의 측정값이 정확해야 표본 평균의 측정값이 정확해야 한다는 점을 보여준다.  또한, 이 분포의 분산이 표본의 수에 반비례한다는 사실로부터 왜 더 많은 표본을 모으는 것이 측정의 정확도를 높이는데 기여하는지를 알 수 있다.

요약하면 표본의 평균이 이루는 분포를 모집단의 분포와 구분하여 표본 분포라고 부르며, 중심극한정리를 사용하면 표본 분포가 정규분포를 따른다는 사실과, 그 분포의 평균과 표준편차를 구할 수 있다. 이때 표본 분포의 표준편차를 표본의 표준편차와 구분하여 표준에러(Standard Error)라고 부른다. 표본의 표준편차는 주어진 표본의 산포도를 요약하기 위한 지표이지만, 표준에러는 표본 추출에 의한 추정치와 모집단의 평균간의 거리를 나타내는 지표로 측정의 정확도를 나타낸다. 표본의 크기와 관계가 없는 표준편차와 달리 표준에러는 표본의 크기가 커질수록 작아진다는 점을 명심하자.

비모수적 방법: 표본 재추출법

지금까지 소개한 모수적 방법은 이미 알려진 분포를 갖는 표본에 대한 추론에 적합하다. 그리고 적당한 크기의 표본에서 평균값에 대한 추론을 할 경우에는 원래 모집단의 분포에 관계없이 표본 평균이 정규분포를 따른다는 사실도 소개했다. 하지만 모집단의 분포를 모르거나, 표본 평균이 아닌 다른 통계값을 사용하고 싶다면 어떻게 해야 할까?

이런 상황에서 통계적 추론을 위해 사용할 수 있는 기법이 비모수적 기법이다. 사실 비모수적 기법에는 여러 종류가 있는데 통계적 추론을 위한 비모수적 기법을 표본 재추출법(resampling method) 혹은 부트스트래핑(bootstrapping) 기법이라고 부른다. 표본 재추출법이라는 이름은 주어진 표본을 모집단으로 가정하고, 여기서 표본을 여러 번 추출하여 표본 분포를 직접 만든다는 의미에서 유래된 것이다.

표본 하나에서 이와 비슷한 특성을 갖는 여력개의 표본을 만들어내는 것이 목적이므로, 이때 사용되는 추출법은 복원추출이다. 복원 추출은 표본 추출시 매번 주어진 표본 전체를 대상으로 추출하는 것을 가리킨다. 말하자면 공이 든 주머니에서 공을 여러 개 꺼낼 때, 매번 꺼냈던 공을 도로 넣고 꺼내는 것에 비유할 수 있다. 표본 재추출법의 절차를 좀더 자세히 살펴보자.

  1. 우리에게 주어진 크기 $n$의 표본이 하나 있다.
  2. 표본에서 복원추출을 통해 크기 $n$인 표본 $k$개를 만든다.
  3. 각 표본에서 추론 대상인 통계값 $S$를 계산한다.
  4. 위에서 구한 $k$개의 통계값 $S$를 바탕으로 표본 분표를 만든다.

img/ch3_inf_bootstrap.png

위에서 살펴본 것처럼 재추출법은 모집단에 대한 어떤 가정도 필요로 하지 않는다. 또한 주어진 표본을 바탕으로 여러 개의 표본을 만들어내기 때문에, 이를 바탕으로 어떤 종류의 통계값도 계산해낼 수 있다. 따라서 재추출법에서는 평균 이외에 다른 지표의 표본 분포도 만들어낼 수 있다. 재추출법은 계산량이 많다는 단점이 있지만, 컴퓨터 성능의 비약적인 향상에 따라 현재는 다양한 분야에서 널리 사용된다.

모수적 방법과 비모수적 방법의 비교

표본 분포를 만드는 두가지 방법으로 중심극한정리에 근거한 모수적 방법과 표본 재추출법을 사용하는 비모수적 방법을 소개했다. 이제 지금까지 설명한 이론을 사례를 통해 구체적으로 알아보자. 이 사례에서는 평균에 대한 표본 분포를 만드는데 있어서 두가지 방법이 같은 결과를 보인다는 점을 설명한다.

우선 다음과 같은 세가지 분포에서 100000개의 원소를 추출하여 만든 모집단을 가정한다.

  • p1: 이항분포 (앞면이 나올 확률이 20%인 동전을 4번 던졌을 때 나오는 앞면의 개수)
  • p2: 정규분포 (평균 2, 표준편차 1)
  • p3: 균등분포 (0부터 3까지 범위에서 균등한 확률)

각 모집단의 히스토그램을 그린 결과는 다음과 같다.

이제 각 모집단을 바탕으로 표본 분포(표본 평균의 분포)를 구해보자. 각 모집단에 대해 36개의 항목으로 구성된 표본 10,000개의 평균의 분포를 구한 결과는 다음과 같다. 모집단의 모양에 관계없이 모두 종모양의 정규분포 형태를 띠는 것을 알 수 있다. 이 결과는 앞서 중심극한정리에서 설명한 내용을 실한다.

이제 모수적 방법과 비모수적 방법으로 만들어진 표본 분포를 비교해보자. 아래는 중심극한정리를 기반하여 구한 정규분포와 표본 재추출법으로 만들어진 표본 분포의 확률 분포를 비교한 것이다. (실선: 비모수적 방법 / 점선: 모수적 방법) 표본 분포가 거의 같은 모양을 띠는 것으로부터, 평균에 대한 추론을 하는데 있어서는 어떤 방법을 사용해도 같은 결과를 얻을 수 있다.

통계적 추론의 유형

지금까지 주어진 표본을 바탕으로 표본 분포를 구하는 방법을 알아보았다. 이처럼 측정 대상 지표에 대하여 표본 분포를 구하고 나면 이를 바탕으로 추정치의 신뢰 구간을 구하거나 데이터에 대한 가설을 검증하는 등의 다양한 통계적 추론을 할 수 있다. 위에서 구한 표본 분포를 바탕으로 여기서는 다양한 분석을 수행하는 방법을 알아보자.

신뢰구간 (Confidence Interval) 구하기

통계적 추론의 가장 기본적인 작업은 모집단의 통계값을 추정하는 것이다. 이처럼 제한된 표본에 근거한 추정은 필연적으로 오류의 가능성을 수반하는데, 이런 오류의 정도를 수치화하는 것이 신뢰구간의 역할이다. 말하자면 신뢰구간은 모집단의 평균값을 어떤 특정한 신뢰도 (예: 95%) 이상의 확률로 포함할 것으로 추정되는 구간이다. 따라서 신뢰구간의 범위가 좁을수록 더 정확한 측정값으로 간주할 수 있다.

여기서 의문을 갖는 독자들이 있을 것이다. 모집단의 평균과 표본이 (즉 신뢰구간의 값이) 이미 정해진 상황에서 신뢰구간이 어떻게 모집단의 평균을 포함할 확률을 정의할 수 있을까? 엄밀히 말하면 개별 표본에서 만들어진 신뢰구간은 모집단의 평균을 포함하거나 포함하지 않는다. 위에서 95%는 충분한 수의 표본을 바탕으로 신뢰 구간을 계산했을 때 그중 95%의 신뢰구간에 모집단의 평균이 포함된다는 뜻이다.

이를 사례를 통해 알아보자. 아래 그림은 앞선 예제에서 사용한 모집단 p1에서 추출한 크기 36인 표본 100개를 바탕으로 95% 신뢰구간을 구한 결과다. 그림의 수평선은 모집단의 평균을 (약 0.8), 꺽쇠가 달린 수직선은 각 표본의 신뢰구간을 나타낸다. 아래 그림을 살펴보면 대부분의 신뢰구간이 0.4~1.2사이에 위치하며, 약 5개 정도의 신뢰구간이 모집단의 평균을 포함하지 않는다는 사실을 알 수 있다.

좀 더 큰 표본을 사용하면 어떻게 될까? 아래 플롯은 크기 144인 표본 100개를 바탕으로 구한 신뢰구간을 보여준다. 대부분의 값이 0.6~1.0사이에 위치하며, 여전히 약 5개 정도의 표본이 모집단의 평균을 포함하지 않는다는 것을 알 수 있다. 이로부터 신뢰구간의 신뢰도는 개별 신뢰구간에 대해 정의되는 것이 아니라 모집단의 평균을 포함하는 신뢰구간의 비율을 가리키며, 표본의 크기가 커짐에 따라 신뢰구간이 좁아진다는 점을 알 수 있다.

지금까지 신뢰구간의 개념을 알아보았다. 이제 주어진 지표의 신뢰구간을 구하는 방법을 구체적으로 알아보자. 우선 모수적 방법을 통하여 평균의 신뢰구간을 구하는 공식은 다음과 같다.

$신뢰구간=표본평균\pm{신뢰도상수\times{표준에러}}$

즉, 신뢰구간의 크기는 신뢰도상수 및 표준에러의 크기에 비례한다. 이때 신뢰도 상수는 우리가 목표로 하는 신뢰도가 높아질수록 커지는데, 일반적으로 사용하는 95%의 신뢰도에서는 1.96을, 99%의 신뢰도에서는 2.58을 사용한다. 좀더 신뢰도를 높게 잡을수록 추정치의 정확도(precision)는 떨어지지만, 모집단의 지표값이 신뢰구간에 포함되지 않는 오류를 범할 확률은 낮아지는 것이다.

$표준에러=\frac{표본의 표준편차}{\sqrt{표본크기}}$

여기서 표준에러는 앞서 살펴본 대로 주어진 표본의 표준편차를 표본 크기의 제곱근으로 나눈 값이다. 따라서 주어진 표본을 바탕으로 계산한 통계값의 표준편차가 작을수록, 그리고 더 큰 표본을 사용할수록 신뢰구간을 좁힐 수 있다는 (즉, 더 정확한 추정이 가능하다는) 해석이 가능하다. 즉, 더 정확한 측정치와 더 많은 데이터는 높은 신뢰도로 연결되는 것이다.

비모수적 방법을 통한 신뢰구간의 계산은 좀더 단순하다. 우선 주어진 표본에서 반복 재추출을 통해 주어진 표본과 같은 크기를 갖는 $k$개의 표본을 만들었다면, 각 표본에서 우리가 원하는 지표값 $S$를 계산해낼 수 있다. 이렇게 $k$개의 원소로 구성된 지표 $S$의 표본분포를 얻었다면, 주어진 지표 $S$의 95% 신뢰구간은 표본분포에서 하위 2.5%의 값과 상위 2.5%의 값이 갖는 구간이다. 평균에 대한 신뢰구간만 구할 수 있는 모수적 방법과는 달리 여기서 지표 $S$는 평균이거나 다른 임의의 지표가 될 수 있기에, 비모수적 방법을 이용하면 임의의 지표에 대한 신뢰구간을 구할 수 있다.

가설 검정하기 (Hypothesis Testing)

많은 경우 분석의 목적은 어떤 명제에 대한 참/거짓 여부를 가리는 것이다. 이런 명제는 주어진 데이터를 통해서 검증되기 전까지는 가설(hypothesis)이라고 할 수 있다. 가설 검증(hypothesis testing)은 이처럼 데이터를 통해 주어진 명제의 진위를 밝히는 일이다. 앞서 설명한 신뢰구간 계산이 추정된 값의 정확도를 밝히는 작업이라면, 가설 검정은 주어진 데이터가 가설을 얼마나 뒷받침하는지를 계량화하는 단계다.

가설 검증에 사용되는 명제는 우리가 관심을 갖는 검정 통계값(test statistic)에 대한 조건으로 정의될 수 있다. 예컨데 어떤 집단에 속하는 학생들의 성적이 특정 기준치에 대해서 높거나 낮다고 말하는 것이 가설의 예다. 이때 통계값은 해당 집단의 학생 성적의 평균이다. 아니면 두 집단의 학생의 성적을 비교하는 것도 가능하다. 이때는 두 학생 집단의 성적 차이가 통계값이 된다.

가설 검증에서는 위에서 정의한 통계값에 대한 다양한 가설이 주어진 데이터에 의해서 얼마나 지지되는지를 평가한다. 이때 우리가 증명하고자 하는 명제를 대립가설이라고 하고, 우리가 부정하려는 명제를 귀무가설이라고 한다. 예컨대 두 집단의 평균에 유의미한 차이가 있다는 명제를 (대립가설) 증명하고자 한다면 , 두 집단의 평균에 유의미한 차이가 없다는 명제가 귀무가설이 된다.

신뢰구간 계산과 가설 검정은 밀접하게 연관되어 있다. 가설 검정의 결과는 우리가 관심을 갖는 통계값이 속하는 범위에 따라 결정되기 때문이다. 즉, 어떤 통계값에 대한 신뢰구간을 구할 수 있다면, 해당 통계값을 어떤 정해진 값과 (예: 0) 비교하는 가설도 검정될 수 있다. 이런 의미에서 신뢰구간과 가설검정은 동전의 양면과 같다.

이를 좀더 구체적으로 알아보자. 우리가 관심을 갖는 통계량이 두 집단의 평균의 차이라고 가정하자. 예컨대 한 학생 집단과 다른 학생 집단의 학업 성취도를 비교하는 문제가 이에 해당한다. 사실 대조군과 통제군을 갖는 대부분의 실험이 이와 같은 평균의 차이를 알아내는 것을 목표로 한다.

우선 신뢰구간을 통해 두 집단 사이에 유의미한 차이가 있는지를 알아보자. 유의미한 차이가 있는지의 여부는 결국 신뢰구간이 0을 포함하는 지의 문제라고 할 수 있다. 따라서 우선 평균의 차이에 대한 신뢰구간을 구하고, 이 신뢰구간에 0이 포함되는지를 확인하면 될 것이다. 만약 95% 신뢰구간에 0이 포함되지 않는다면 두 집단 사이에 유의미한 차이가 있을 확률은 5%미만으로 볼 수 있다.

이번에는 같은 문제를 가설 검정을 통해 해결하는 절차를 알아보자. 문자 그대로 가설 검정은 주어진 문제에 대한 가설에서 출발한다. 여기서는 두 집단의 평균의 차이가 없다는 것이 가설이다. 일단 가설을 세우면 주어진 가설하에서 우리가 관심을 갖는 통계량이 (여기서는 두 집단의 평균의 차이) 어떤 분포를 갖는지를 생각해볼 수 있다. 이는 앞에서 구한 표본분포과 같은 모양을 지니지만 평균만 0을 갖는 분포가 된다. (두 집단에 평균의 차이가 없다고 가정했으므로)

마지막으로 이 가설이 우리가 가진 데이터에 의해 얼마나 잘 설명되는지를 알기 위해서는 데이터에서 계산된 표본평균이 이 분포에서 어디에 위치하는지를 확인한다. 만약 표본평균이 해당 분포의 양쪽 극단에 위치한다면 주어진 가설은 데이터를 설명하기에는 그다지 적절하지 않다는 결론을 낼 수 있다. 그리고 우리가 관찰한 표본평균 및 이보다 더 극단적인 값이 주어진 가설 하에서 관찰될 확률을 유의성(significance)으로 정의한다.

아래 그림은 실제 평균이 두 집단간의 평균의 차이에 대한 95% 신뢰구간이 0을 포함하고 있으며, 이와 동시에 두 집단간의 평균의 차이가 0이 아니라는 가설을 기각할 수 없는 상황을 그림으로 보여준다. 이처럼 가설 검정과 신뢰구간은 밀접하게 관련되어 있으며, 두 집단의 평균에 차이가 없다는 가설이 주어진 데이터에 의해 얼만큼 지지되는지를 판단하기 위해 사용될 수 있다.

img/ch3_inf_conf_hypo.png

신뢰구간과 가설 검정간의 관계를 사례를 통해 알아보자. 아래 그림은 앞선 예제에서 사용한 모집단 p1에서 추출한 크기 36인 표본 100개를 바탕으로 95% 신뢰구간을 구한 결과다. 이제 그림의 각 표본에 대해 평균이 0.5가 넘는다는 가설을 검정한다고 생각해보자. 이를 위해서는 각 표본에 대해 신뢰구간이 0.5를 지나는지 확인하면 된다. 아래 표본에 대해 이를 확인해보면 약 59%에 대해 이 사실이 성립한다. 그리고 정확히 같은 수의 표본에 대해서 우리는  평균이 0.5와  같다는 귀무가설을 기각할 수 있다.

크기 144인 표본에 대해 같은 분석을 수행해보자. 아래 그림에서 보듯이 신뢰구간이 0.5를 지나는 표본은 단 하나에 불과하다. 같은 원리로 99개의 표본에 대하여 모집단의 평균이 0.5와 같다는 귀무가설을 기각할 수 있다. 앞에서와 마찬가지로 큰 표본은 정확한 추정치와 함께 통계적으로 유의미한 결론을 얻을 확률을 높인다는 사실을 알 수 있다.

마치며: 통계적 추론의 가능성과 한계를 인식해야

저명한 통계학자 조지 박스(George Box)는 “모든 모델을 잘못되었다. 하지만 그 중 몇몇은 유용하다.”는 말을 남겼다. 이 말에서처럼 현실을 단순화하는 모델은 본질적으로 오류의 가능성을 피할 수 없다. 하지만 이런 단순화를 통해 현상의 정수를 포착한 모델은 우리가 제한된 데이터로부터 유용한 결론을 내릴 수 있도록 도와준다.

이 장에서는 제한된 표본을 바탕으로 모집단에 대한 다양한 결론을 내릴 수 있도록 도와주는 통계적 추론 기법에 대해 알아보았다. 여기서는 수치형 지표의 신뢰구간과 가설검정에 대해 알아보았지만, 실제로는 자료형 및 데이터의 특성에 따라 다양한 통계적 추론 기법이 존재한다. 하지만 모수적 방법과 비모수적 방법의 기본적인 개념을 이해한다면 다른 기법을 공부하는데 큰 어려움이 없을 것이라고 믿는다.

마지막으로 현실 세계의 문제를 해결하는데 있어서 주어진 문제에 맞는 통계적 기법을 적절히 적용하기 위해서는 고려해야 할 것이 많다는 사실을 강조하고 싶다. 최근 데이터 저널리즘 사이트인 FiveThirtyEight에서는 ‘축구 심판들이 어두운 피부톤을 가진 선수들에게 (주로 흑인들) 퇴장을 더 많이 주는가?’라는 질문에 대해 같은 데이터를 바탕으로 서른개가 넘는 연구팀에서 연구한 결과를 소개했다. 아래 왼쪽의 표는 각 연구팀이 사용한 분석 기법, 오른쪽의 차트는 각 팀이 도출한 결과값 (흑인의 퇴장 확률 / 백인의 퇴장 확률)의 평균 및 신뢰구간을 보여준다.

2015-10-06 11_09_13-Science Isn’t Broken _ FiveThirtyEight

위 결과에 따르면 다수의 연구팀이 흑인 선수들이 퇴장당할 확률이 백인에 비해 1.5배 높다는 결론을 내기는 했지만, 차트를 자세히 보면 각 연구팀이 도출한 결과는 상당한 차이를 보인다. 퇴장 비율의 평균에 있어서도 1배에서 3배까지 다양한 분포를 보이며, 퇴장 비율의 신뢰구간이 0을 포함하는 결과도 다수 발견된다. 만약 이들 중 어떤 팀에게 연구 용역을 주었다면, 어떤 팀을 선정했느냐에 따라 다른 결과를 얻었을 것이다.

이처럼 풍부한 연구 경험을 지닌 팀들도 서로 완전히 일치하는 결과를 얻기 힘들다는 사실은 데이터에서 어떤 결론을 유도할 때 항상 주의해야 한다는 점을 일깨워준다. 데이터 자체의 오류는 없는지, 우리가 선택한 분석 기법이 데이터의 다양한 특성에 부합하는지, 분석 기법을 적용하고 해석하는데 있어서 오류는 없는지 자세히 살펴야 할 것이다. 그리고 이런 고려가 끝난 후에도 표본에서 내리는 결론의 한계를 항상 유의해야 할 것이다.

p.s. 이 글의 초고를 검토해주신 이성훈, 김성철님 외 익명의 독자분들께 감사의 뜻을 전합니다. 본 글에서 사용된 데이터 및 소스는 여기서 받아 실습해보실 수 있습니다. 질문/의견은 이곳으로 주시면 됩니다.