'유의수준'에 해당되는 글 3건

  1. 2017.09.11 41. p-value
  2. 2017.09.04 38. 가설검정③
  3. 2017.08.29 37. 가설검정②

41. p-value

야행하는 리서치 2017. 9. 11. 09:00

귀무가설의 채택 여부를 결정하는 기준으로 통계분석프로그램에서 흔히 제시되는 값으로p-value가 입니다. p-value는 유의확률(significance probability)라고도 하는데, p-value는 검정통계량의 결과값에 대해 귀무가설을 기각할 수 있는 최소한의 유의수준을 말합니다. 만약 보다 작은 유의수준으로 귀무가설을 기각할 수 있다면 검정통계량의 결과값은 귀무가설 하에서 발생가능성이 보다 희박한 사건이 될 것이므로 p-value 값이 작을수록 대립가설에 대한 보다 강력한 증거가 됩니다. 즉 p-value는 설문조사의 결과가 대립가설을 반대하는 입증정도를 나타냅니다.

이미 주어진 유의수준 하에서 기각역을 계산할 수 있음에도 p-value를 제시하는 이유는 표본크기가 커질수록 표본의 표준편차 즉 표준오차가 작아지므로 미세한 차이도 구분이 가능해지고 실제 귀무가설이 참이건 거짓이건 상관없이 대부분의 경우에 귀무가설을 기각할 수 있기 때문입니다. 이러한 문제를 해결하기 위해 획일적인 유의수준을 제시하지 않고 의사결정자가 의사결정에 따른 오류 가능성을 어느 정도 받아 들이지에 따라 스스로 귀무가설의 기각여부를 판단할 수 있도록 p-value를 제시합니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

                                                     

 

 

Posted by dooka
,

36. 가설검정 ①

37. 가설검정 ②

지금까지 통계적 가설검정의 원리를 이해했으므로 관련 개념 및 기본원리와 통계적 가설검정의 일반적인 절차를 정리해 보겠습니다.

            

 

 

이제 지지율에 대한 가설검정 사례를 통해 통계적 가설검정 절차를 일별해 보겠습니다. 광역지방자치단체장을 선출하는 선거에 출마한 특정 후보의 선거운동본부에서는 해당후보의 지지율이 20%를 넘어가는지 여부에 따라 홍보전략을 달리 하기로 했고 해당 광역지방자치단체 유권자 전체로부터 확률표본 400명을 추출했다고 가정해보겠습니다. 귀무가설은 지지율 p가 20%보다 작은 것으로, 대립가설은 지지율 p가 20%보다 큰 것으로 설정하고 귀무가설 하에서 지지율의 표본분포를 구해보면 지지율은 근사적으로 평균이 0.2이고 분산이 0.2×(1-0.8)/400=0.0004인 정규분포에 근사합니다.

 

유의수준 5% 하에서 만족하는 c값을 구하고 표본으로부터 구한 지지율이 c값보다 크면 귀무가설을 기각하는 의사결정을 내리면 됩니다. (c-0.2)/=z0.05 = 1.64에서 c값을 구하면 0.233입니다. 만약 표본으로부터 구한 지지율이 23.3%보다 크다면 모집단 지지율 20%이하일 경우 매우 희귀한 사건이라고 할 수 있으므로 귀무가설을 기각할 수 있는 강력한 증거가 됩니다.

이와 같이 부등호가 한쪽 방향으로 설정되어 표본분포의 한쪽 꼬리에 기각역을 정하는 가설검정을 단측검정이라고 합니다. 만약 위 지지율 사례에서 귀무가설을 지지율 20%와 같다라고 설정하면 표본분포의 양쪽 꼬리에 기각역을 정하는 양측검정이 됩니다. 위 지지율 사례에서 지지율은 20%라는 귀무가설에 대해 표본의 지지율이 -c보다 작거나 c보다 크면 귀무가설을 기각한다고 해보겠습니다. 양측검정인 귀무가설 하에서는 아래의 수식이 성립합니다.

여기에서 아래의 등식을 -c와 c에 대해 정리하면 -c=0.161, c=0.239 입니다. 표본의 지지율이 16.1%보다 작거나 23.9%보다 크다면 지지율은 20%라는 귀무가설을 기각할 강력한 증거가 됩니다.

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

                                       

 

 

 

 

Posted by dooka
,

 

 

36. 가설검정 ①

 

 

지난 포스팅에 이어 가설검정의 기본원리에 대해 알아보겠습니다. 언제나 늑대가 나타났다고 거짓말하는 양치기 소년의 우화를 생각해 보면 실제로 늑대가 나타났는지 여부와 양치기 소년이 늑대가 나타났다고 말하는지 여부에 따라 네 가지 경우가 존재합니다. 이 중 귀무가설이 참임에도 불구하고 귀무가설을 기각할 가능성을 제1종 오류라고 하고 대립가설이 참임에도 불구하고 귀무가설을 채택할 가능성을 제2종 오류라고 합니다. 대립가설이 참일 때 대립가설을 채택할 가능성을 특히 검정력(power)라고 합니다.

 

                          

 

귀무가설이 참이라는 가정 하에서 확률표본을 이용하여 구한 모수에 대한 추정량을 검정통계량이라고 합니다. 이 검정통계량의 값을 가설채택 여부의 기준이 되는 임계치와 비교하여 가설 채택 여부를 결정하게 됩니다. 만약 양치기 소년이 검정통계량이라면 매우 나쁜 검정 통계량임을 알 수 있습니다. 언제나 늑대가 나타났다고 말하므로 제2종 오류의 가능성은 0이 되고 검정력은 극대화되지만 제1종 오류의 가능성 역시 극대화됩니다.

통계적 가설 검정에서 대립가설이 참일 경우 귀무가설을 기각할 확률 즉 검정력을 아래 그림과 같이 I+II에서 I+II+III+IV로 높이기 위해 가설 채택 여부의 기준이 되는 임계치를 C1에서 C2로 변경한다면, 잘못해서 귀무가설을 기각할 확률 즉 제1종 오류를 범할 확률 역시 II에서 II+IV로 증가함을 알 수 있습니다. 표본크기가 주어진 경우 제1종 오류를 범할 확률과 제2종 오류를 범할 확률을 동시에 감소시킬 수는 없음을 알 수 있습니다. 그러므로 오류 발생 시 발생할 위험이 중요한 유형의 오류를 최대 허용 수준을 지정한 후 나머지 오류를 극소화하는 방식으로 의사결정규칙을 정하는 것이 위험 회피 관점에서 합리적입니다.

현재 상황을 유지하는 경우보다는 현재 상황을 변경하는 경우의 위험이 더 큰 것이 일반적이기 때문에, 잘못해서 현재의 상황을 지지하는 귀무가설을 기각하는 제1종 오류가 제2종 오류보다는 더 중요한 오류라고 볼 수 있습니다. 그렇다면 제1종 오류를 범할 확률의 최대 허용 상한인 유의수준을 정한 후에 그 범위 내에서 잘못해서 귀무가설을 기각하지 못하는 제2종 오류를 극소화하는, 즉 실제 귀무가설이 틀렸을 때 귀무가설을 기각하는 검정력(power)을 극대화하는 의사결정규칙을 찾아야 합니다.

가상의 시장에서 신제품 컨셉트의 10점 만점 호감도가 7점보다 큰 값을 가지는지가 관심인 사례에서 호감도가 7보다 작거나 같다는 귀무가설 하에서는 고려해야할 표본평균값은 무수히 많습니다. 그러나 일단 가설 채택 여부의 기준이 되는 임계치를 설정하고 보면 평균 호감도가 7일 때 잘못해서 귀무가설을 기각할 제1종 오류를 범할 확률이 최대가 되므로 우리는 평균 호감도가 7인 경우의 표본분포만을 고려하면 됩니다. 그림에서 임계치를 c1으로 설정했을 때 평균이 7인 경우의 제1종 오류를 범할 확률(영역 II)과 평균이 7보다 작은 경우의 제1종 오류를 범할 확률을 비교해보면 전자가 후자보다 더 큰 값을 가짐을 시각적으로 확인할 수 있습니다.

우리는 제품 컨셉트의 호감도가 7보다 큰 값인지 여부가 관심인 사례에서 가능한 귀무가설 하의 표본분포 중에서 평균이 7인 경우의 표본분포에서 제1종류를 범할 확률이 최대가 됨을 확인했습니다. 잘못해서 귀무가설을 기각할 오류인 제1종 오류를 범할 확률의 상한인 유의수준은 가능한 귀무가설 하의 여러 표본평균 중 경계에 있는 값, 사례에서는 평균 호감도 7을 기준으로 지정하면 되는 것입니다. 만약 유의수준을 위 그림의 영역II의 면적이 되도록 정했다면 이에 대응하는 검정통계량 값 c1보다 같거나 큰 값 중에서 검정력이 가장 큰 값을 임계치로 설정하면 가설검정을 위한 의사결정규칙을 완성하게 됩니다. 변수값 c1에 대응하는 검정력은 영역 I+II의 면적이 되고 이 면적이 대립가설 하에서는 c1보다 큰 어떤 값의 검정력보다 크다는 사실을 확인할 수 있습니다. 귀무가설 하에서의 제1종 오류를 범할 확률의 상한인 유의수준을 정하고 유의수준에 대응하는 변수 값을 구하면 대립가설 하에서 그 값에 대응하는 검정력이 가장 커지므로 귀무가설 하에서 유의수준에 대응하는 변수 값을 가설채택 여부의 기준이 되는 임계치로 설정하면 됩니다. 즉, 귀무가설이 참일 때의 검정통계량 표본분포의 꼬리 부분에 유의수준 크기에 대응하는 기각역을 설정하면 잘못해서 귀무가설을 채택할 제2종 오류를 최소화할 수 있습니다. 여기서 기각역이란 임계치 이상의 값을 가지는 검정통계량의 부분집합을 말하며 검정통계량의 값이 이 영역에 속하면 귀무가설을 기각합니다. 통계적 가설검정에서 제1종 오류를 범할 확률의 상한인 유의수준의 의미는 가설검정을 반복할 때 잘못하여 귀무가설을 기각할 확률이 유의수준 이하라는 의미를 담고 있습니다.

 

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

'야행하는 리서치' 카테고리의 다른 글

39. 이표본 가설검정 ①  (0) 2017.09.06
38. 가설검정③  (0) 2017.09.04
36. 가설검정①  (0) 2017.08.18
35. 통계적 추정의 기본원리②  (0) 2017.08.02
34. 통계적 추정의 기본원리①  (0) 2017.07.26
Posted by dooka
,