통계적 가설검정에서는 단일표본에 대한 가설검정보다는 실험집단과 통제집단에 서로 다른 실험처리(treatment)를 적용해서 두 집단의 평균을 비교하는 이표본 가설검정이 일반적입니다. 이표본 가설검정을 적용하기 위해서는 확률추출법을 적용한 n개의 개체에 대해 처음 처리1을 적용할 n1개를 임의추출하고 나머지 n-n1=n2개의 개체들에 대해서는 처리2를 적용합니다. 이와 같이 실험처리를 적용하게 되면 각 개체들의 실험처리에 대한 반응값에는 실험처리에 의한 효과 이외의 다른 요인들의 영향을 평균적으로는 동일하게 제어할 수 있습니다. 예를 들어 제품 패키지 A와 B에 대한 호감도를 알아보기 위한 조사에서 표본추출 후 설문조사 진행 시 패키지 A와 B를 무작위로 노출하게 되면 A를 접한 응답자들과 B를 접한 응답자들은 서로 다른 패키지에 노출되었다는 점 외에 다른 특성들은 평균적으로 동일하다고 볼 수 있습니다.

이제 구체적으로 오픈소스 프로그램 R을 이용한 이표본 가설검정 절차에 대해 알아 보겠습니다. 이표본 가설검정의 데이터 형태는 아래와 같습니다. 파일의 저장형식은 CSV파일로 지정해 줍니다. 데이터에서 package는 제품 패키지 유형을 구분하는 명목형 변수이고 변수x는 각 패키지에 대한 5점 만점 호감도입니다.

이표본 가설검정을 실행하기에 앞서 먼저 두 집단의 분산이 동일한지에 대한 검정을 실시해야 합니다. 왜냐하면 분산이 동일한지 여부에 따라 표본분산의 계산방법이 달라지고 그에 다라 검정통계량과 임계치의 값이 달라지기 때문입니다.

만약 두 집단의 분산이 다르다면 두 집단은 서로 독립이므로 두 집단의 표본평균의 차이에 대한 분산은 각각의 표본분산을 합산하여 구하면 되지만 두 집단의 분산이 동일하다면 pooled variance를 활용하여 표본평균의 차이에 대한 표본분산을 구해야 합니다. 분산이 동일한 경우 표본분산은 pooled variance×(1/n1+1/n2)로 계산하며 pooled variance는 두 집단의 표본분산에 각각의 자유도 즉 각각의 표본크기에서 1을 뺀 수를 곱하여 더한 후 전체 자유도 n1+n2-2로 나누어 줌으로서 구합니다. 전체 자유도를 전체 표본크기에서 1이 아닌 2를 차감해서 구하는 이유는 각각의 표본분산을 구하는데 이미 2만큼의 정보를 사용했기 때문입니다.

 

pooled variance= [(n1-1)+(n2-1)]/(n1+n2-2)

먼저 등분산 가정에 대한 가설검정에 앞서 R의 파일 메뉴에서 작업 디렉토리를 지정해 줍니다. 표본평균에 대한 이표본 가설검정에 앞서 등분산 여부를 검정하는 R의 실행명령어는 다음과 같습니다. 먼저 등분산 가정에 대한 가설검정에 앞서 R의 파일 메뉴에서 작업 디렉토리를 지정해 줍니다. 그리고 해당 디렉토리에 aa라는 이름으로 저장해 둔 CSV파일을 불러 옵니다. 분산의 동일성을 검정하는 명령어는 var.test(실험처리에 대한 반응변수~실험처리 유형을 구분하는 독립변수, data=검정대상파일명)입니다. R에서 등분산 검정을 실행한 결과는 아래와 같습니다.

 

 

먼저 F가 눈에 띄는데 이는 F분포를 따르는 검정통계량을 의미합니다. F분포 역시 t분포와 마찬가지로 정규분포 모집단의 표본분포입니다. 두 집단이 서로 독립이고 정규분포를 따르는 경우 각각의 표본분산에 각 집단의 자유도를 곱하여 모분산으로 나눈 확률변수의 비(比)인 통계량 F는 자유도가 n1-1, n2-1인 F분포를 따르게 됩니다. 제곱합 형태의 통계량이므로 항상 0보다 큰 값을 가지며 오른쪽으로 긴 꼬리를 가지는 기울어진 형태를 가지고 있습니다.

 

 

aa.csv

 

직관적으로 본다면 검정통계량인 F는 두 집단의 분산이 동일하다는 귀무가설 하에서는 1에 가까운 값을 가질 것입니다. 결과에서 p-value 값은 0.61로 유의수준 0.05보다 큰 값을 가지므로 귀무가설을 기각할 수 없고 두 집단의 분산은 동일하다고 볼 수 있습니다.

 

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

                                                     

 

 

 

 

 

Posted by dooka
,

서베이몽키는 차트와 기본적인 교차분석을 지원하는 ‘설문 결과 분석 ’ 기능을 제공하고 있습니다. ‘설문 결과 분석 ’ 메뉴에서는 문항별 차트에서 ‘사용자 정의’를 선택하면 차트에 대한 다양한 설정을 변경할 수 있습니다.

 

 

우선 8가지 차트 유형을 선택할 수 있습니다.

 

표시 옵션을 보면 ① 차트 표시 여부를 선택할 수 있고 ② 차트의 데이터 값 표시 여부도 선택할 수 있습니다. ③ 차트 외에 데이터 표의 표시 여부를 선택할 수도 있습니다. ④ 기본 통계를 선택할 경우 최대값, 최소값, 중앙값, 평균 및 표준 편차를 제공합니다. ⑤ 표본크기가 큰 경우 통계적 유의성까지 살펴볼 수 있습니다.

 

‘데이터 형식’ 중 ‘깊이’에서는 가중평균과 분포 중 선택할 수 있습니다.

 

 

 

‘축 척도’에서는 데이터의 표시 값의 유형으로 ‘절대값’과 ‘비율’ 중 선택할 수 있습니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다!

  

Posted by dooka
,

36. 가설검정 ①

37. 가설검정 ②

지금까지 통계적 가설검정의 원리를 이해했으므로 관련 개념 및 기본원리와 통계적 가설검정의 일반적인 절차를 정리해 보겠습니다.

            

 

 

이제 지지율에 대한 가설검정 사례를 통해 통계적 가설검정 절차를 일별해 보겠습니다. 광역지방자치단체장을 선출하는 선거에 출마한 특정 후보의 선거운동본부에서는 해당후보의 지지율이 20%를 넘어가는지 여부에 따라 홍보전략을 달리 하기로 했고 해당 광역지방자치단체 유권자 전체로부터 확률표본 400명을 추출했다고 가정해보겠습니다. 귀무가설은 지지율 p가 20%보다 작은 것으로, 대립가설은 지지율 p가 20%보다 큰 것으로 설정하고 귀무가설 하에서 지지율의 표본분포를 구해보면 지지율은 근사적으로 평균이 0.2이고 분산이 0.2×(1-0.8)/400=0.0004인 정규분포에 근사합니다.

 

유의수준 5% 하에서 만족하는 c값을 구하고 표본으로부터 구한 지지율이 c값보다 크면 귀무가설을 기각하는 의사결정을 내리면 됩니다. (c-0.2)/=z0.05 = 1.64에서 c값을 구하면 0.233입니다. 만약 표본으로부터 구한 지지율이 23.3%보다 크다면 모집단 지지율 20%이하일 경우 매우 희귀한 사건이라고 할 수 있으므로 귀무가설을 기각할 수 있는 강력한 증거가 됩니다.

이와 같이 부등호가 한쪽 방향으로 설정되어 표본분포의 한쪽 꼬리에 기각역을 정하는 가설검정을 단측검정이라고 합니다. 만약 위 지지율 사례에서 귀무가설을 지지율 20%와 같다라고 설정하면 표본분포의 양쪽 꼬리에 기각역을 정하는 양측검정이 됩니다. 위 지지율 사례에서 지지율은 20%라는 귀무가설에 대해 표본의 지지율이 -c보다 작거나 c보다 크면 귀무가설을 기각한다고 해보겠습니다. 양측검정인 귀무가설 하에서는 아래의 수식이 성립합니다.

여기에서 아래의 등식을 -c와 c에 대해 정리하면 -c=0.161, c=0.239 입니다. 표본의 지지율이 16.1%보다 작거나 23.9%보다 크다면 지지율은 20%라는 귀무가설을 기각할 강력한 증거가 됩니다.

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

                                       

 

 

 

 

Posted by dooka
,