통계적 가설검정에서는 단일표본에 대한 가설검정보다는 실험집단과 통제집단에 서로 다른 실험처리(treatment)를 적용해서 두 집단의 평균을 비교하는 이표본 가설검정이 일반적입니다. 이표본 가설검정을 적용하기 위해서는 확률추출법을 적용한 n개의 개체에 대해 처음 처리1을 적용할 n1개를 임의추출하고 나머지 n-n1=n2개의 개체들에 대해서는 처리2를 적용합니다. 이와 같이 실험처리를 적용하게 되면 각 개체들의 실험처리에 대한 반응값에는 실험처리에 의한 효과 이외의 다른 요인들의 영향을 평균적으로는 동일하게 제어할 수 있습니다. 예를 들어 제품 패키지 A와 B에 대한 호감도를 알아보기 위한 조사에서 표본추출 후 설문조사 진행 시 패키지 A와 B를 무작위로 노출하게 되면 A를 접한 응답자들과 B를 접한 응답자들은 서로 다른 패키지에 노출되었다는 점 외에 다른 특성들은 평균적으로 동일하다고 볼 수 있습니다.
이제 구체적으로 오픈소스 프로그램 R을 이용한 이표본 가설검정 절차에 대해 알아 보겠습니다. 이표본 가설검정의 데이터 형태는 아래와 같습니다. 파일의 저장형식은 CSV파일로 지정해 줍니다. 데이터에서 package는 제품 패키지 유형을 구분하는 명목형 변수이고 변수x는 각 패키지에 대한 5점 만점 호감도입니다.
이표본 가설검정을 실행하기에 앞서 먼저 두 집단의 분산이 동일한지에 대한 검정을 실시해야 합니다. 왜냐하면 분산이 동일한지 여부에 따라 표본분산의 계산방법이 달라지고 그에 다라 검정통계량과 임계치의 값이 달라지기 때문입니다.
만약 두 집단의 분산이 다르다면 두 집단은 서로 독립이므로 두 집단의 표본평균의 차이에 대한 분산은 각각의 표본분산을 합산하여 구하면 되지만 두 집단의 분산이 동일하다면 pooled variance를 활용하여 표본평균의 차이에 대한 표본분산을 구해야 합니다. 분산이 동일한 경우 표본분산은 pooled variance×(1/n1+1/n2)로 계산하며 pooled variance는 두 집단의 표본분산에 각각의 자유도 즉 각각의 표본크기에서 1을 뺀 수를 곱하여 더한 후 전체 자유도 n1+n2-2로 나누어 줌으로서 구합니다. 전체 자유도를 전체 표본크기에서 1이 아닌 2를 차감해서 구하는 이유는 각각의 표본분산을 구하는데 이미 2만큼의 정보를 사용했기 때문입니다.
pooled variance= [(n1-1)+(n2-1)]/(n1+n2-2)
먼저 등분산 가정에 대한 가설검정에 앞서 R의 파일 메뉴에서 작업 디렉토리를 지정해 줍니다. 표본평균에 대한 이표본 가설검정에 앞서 등분산 여부를 검정하는 R의 실행명령어는 다음과 같습니다. 먼저 등분산 가정에 대한 가설검정에 앞서 R의 파일 메뉴에서 작업 디렉토리를 지정해 줍니다. 그리고 해당 디렉토리에 aa라는 이름으로 저장해 둔 CSV파일을 불러 옵니다. 분산의 동일성을 검정하는 명령어는 var.test(실험처리에 대한 반응변수~실험처리 유형을 구분하는 독립변수, data=검정대상파일명)입니다. R에서 등분산 검정을 실행한 결과는 아래와 같습니다.
먼저 F가 눈에 띄는데 이는 F분포를 따르는 검정통계량을 의미합니다. F분포 역시 t분포와 마찬가지로 정규분포 모집단의 표본분포입니다. 두 집단이 서로 독립이고 정규분포를 따르는 경우 각각의 표본분산에 각 집단의 자유도를 곱하여 모분산으로 나눈 확률변수의 비(比)인 통계량 F는 자유도가 n1-1, n2-1인 F분포를 따르게 됩니다. 제곱합 형태의 통계량이므로 항상 0보다 큰 값을 가지며 오른쪽으로 긴 꼬리를 가지는 기울어진 형태를 가지고 있습니다.
정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.
'야행하는 리서치' 카테고리의 다른 글
40. 정규분포와 t분포 (0) | 2017.09.06 |
---|---|
2017년 32회 경영지도사 2차 시험 시장조사론 기출문제 해설 1 of 3 (0) | 2017.09.06 |
38. 가설검정③ (0) | 2017.09.04 |
37. 가설검정② (0) | 2017.08.29 |
36. 가설검정① (0) | 2017.08.18 |