'제1종오류'에 해당되는 글 1건

  1. 2017.08.29 37. 가설검정②

 

 

36. 가설검정 ①

 

 

지난 포스팅에 이어 가설검정의 기본원리에 대해 알아보겠습니다. 언제나 늑대가 나타났다고 거짓말하는 양치기 소년의 우화를 생각해 보면 실제로 늑대가 나타났는지 여부와 양치기 소년이 늑대가 나타났다고 말하는지 여부에 따라 네 가지 경우가 존재합니다. 이 중 귀무가설이 참임에도 불구하고 귀무가설을 기각할 가능성을 제1종 오류라고 하고 대립가설이 참임에도 불구하고 귀무가설을 채택할 가능성을 제2종 오류라고 합니다. 대립가설이 참일 때 대립가설을 채택할 가능성을 특히 검정력(power)라고 합니다.

 

                          

 

귀무가설이 참이라는 가정 하에서 확률표본을 이용하여 구한 모수에 대한 추정량을 검정통계량이라고 합니다. 이 검정통계량의 값을 가설채택 여부의 기준이 되는 임계치와 비교하여 가설 채택 여부를 결정하게 됩니다. 만약 양치기 소년이 검정통계량이라면 매우 나쁜 검정 통계량임을 알 수 있습니다. 언제나 늑대가 나타났다고 말하므로 제2종 오류의 가능성은 0이 되고 검정력은 극대화되지만 제1종 오류의 가능성 역시 극대화됩니다.

통계적 가설 검정에서 대립가설이 참일 경우 귀무가설을 기각할 확률 즉 검정력을 아래 그림과 같이 I+II에서 I+II+III+IV로 높이기 위해 가설 채택 여부의 기준이 되는 임계치를 C1에서 C2로 변경한다면, 잘못해서 귀무가설을 기각할 확률 즉 제1종 오류를 범할 확률 역시 II에서 II+IV로 증가함을 알 수 있습니다. 표본크기가 주어진 경우 제1종 오류를 범할 확률과 제2종 오류를 범할 확률을 동시에 감소시킬 수는 없음을 알 수 있습니다. 그러므로 오류 발생 시 발생할 위험이 중요한 유형의 오류를 최대 허용 수준을 지정한 후 나머지 오류를 극소화하는 방식으로 의사결정규칙을 정하는 것이 위험 회피 관점에서 합리적입니다.

현재 상황을 유지하는 경우보다는 현재 상황을 변경하는 경우의 위험이 더 큰 것이 일반적이기 때문에, 잘못해서 현재의 상황을 지지하는 귀무가설을 기각하는 제1종 오류가 제2종 오류보다는 더 중요한 오류라고 볼 수 있습니다. 그렇다면 제1종 오류를 범할 확률의 최대 허용 상한인 유의수준을 정한 후에 그 범위 내에서 잘못해서 귀무가설을 기각하지 못하는 제2종 오류를 극소화하는, 즉 실제 귀무가설이 틀렸을 때 귀무가설을 기각하는 검정력(power)을 극대화하는 의사결정규칙을 찾아야 합니다.

가상의 시장에서 신제품 컨셉트의 10점 만점 호감도가 7점보다 큰 값을 가지는지가 관심인 사례에서 호감도가 7보다 작거나 같다는 귀무가설 하에서는 고려해야할 표본평균값은 무수히 많습니다. 그러나 일단 가설 채택 여부의 기준이 되는 임계치를 설정하고 보면 평균 호감도가 7일 때 잘못해서 귀무가설을 기각할 제1종 오류를 범할 확률이 최대가 되므로 우리는 평균 호감도가 7인 경우의 표본분포만을 고려하면 됩니다. 그림에서 임계치를 c1으로 설정했을 때 평균이 7인 경우의 제1종 오류를 범할 확률(영역 II)과 평균이 7보다 작은 경우의 제1종 오류를 범할 확률을 비교해보면 전자가 후자보다 더 큰 값을 가짐을 시각적으로 확인할 수 있습니다.

우리는 제품 컨셉트의 호감도가 7보다 큰 값인지 여부가 관심인 사례에서 가능한 귀무가설 하의 표본분포 중에서 평균이 7인 경우의 표본분포에서 제1종류를 범할 확률이 최대가 됨을 확인했습니다. 잘못해서 귀무가설을 기각할 오류인 제1종 오류를 범할 확률의 상한인 유의수준은 가능한 귀무가설 하의 여러 표본평균 중 경계에 있는 값, 사례에서는 평균 호감도 7을 기준으로 지정하면 되는 것입니다. 만약 유의수준을 위 그림의 영역II의 면적이 되도록 정했다면 이에 대응하는 검정통계량 값 c1보다 같거나 큰 값 중에서 검정력이 가장 큰 값을 임계치로 설정하면 가설검정을 위한 의사결정규칙을 완성하게 됩니다. 변수값 c1에 대응하는 검정력은 영역 I+II의 면적이 되고 이 면적이 대립가설 하에서는 c1보다 큰 어떤 값의 검정력보다 크다는 사실을 확인할 수 있습니다. 귀무가설 하에서의 제1종 오류를 범할 확률의 상한인 유의수준을 정하고 유의수준에 대응하는 변수 값을 구하면 대립가설 하에서 그 값에 대응하는 검정력이 가장 커지므로 귀무가설 하에서 유의수준에 대응하는 변수 값을 가설채택 여부의 기준이 되는 임계치로 설정하면 됩니다. 즉, 귀무가설이 참일 때의 검정통계량 표본분포의 꼬리 부분에 유의수준 크기에 대응하는 기각역을 설정하면 잘못해서 귀무가설을 채택할 제2종 오류를 최소화할 수 있습니다. 여기서 기각역이란 임계치 이상의 값을 가지는 검정통계량의 부분집합을 말하며 검정통계량의 값이 이 영역에 속하면 귀무가설을 기각합니다. 통계적 가설검정에서 제1종 오류를 범할 확률의 상한인 유의수준의 의미는 가설검정을 반복할 때 잘못하여 귀무가설을 기각할 확률이 유의수준 이하라는 의미를 담고 있습니다.

 

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

'야행하는 리서치' 카테고리의 다른 글

39. 이표본 가설검정 ①  (0) 2017.09.06
38. 가설검정③  (0) 2017.09.04
36. 가설검정①  (0) 2017.08.18
35. 통계적 추정의 기본원리②  (0) 2017.08.02
34. 통계적 추정의 기본원리①  (0) 2017.07.26
Posted by dooka
,