지난 포스팅에서 우리는 이표본에서의 모평균 비교에 대한 가설검정을 알아보았습니다. 그렇다면 비교 대상이 두 집단보다 커지는 경우에는 어떤 분석이 가능할지 생각해고자 합니다. 고등학생들을 대상으로 한 스터디 카페를 운영하는 기업에서 광고 모델 후보로 유명 연예인 A와 교육 전문가 B, 그리고 고등학생 자녀를 둔 일반 학부모 C를 고려하고 있으며 고등학생 자녀를 둔 학부모를 대상으로 설문조사를 실시하고 그 결과에 따라 A, B, C 중 한 명을 광고 모델로 선정하기로 했다고 가정해 보겠습니다.

 이들 후보 A, B, C에 대한 호감도에 차이가 있는지 여부를 알아보기 위해 각각 이표본 가설검정 절차를 적용한다면 A와 B, A와 C, B와 C를 비교한 총 3회의 가설검정 절차를 거쳐야 합니다. 각각의 검정 절차에서 유의수준을 5%로 제어할 경우, 총 3회의 가설검정에서 단 한번이라도 잘못해서 귀무가설을 기각할 제1종 오류를 범할 확률은 5%를 상회합니다.

 각각의 검정에 대해 제1종 오류를 범할 확률의 상한인 유의수준이 5%라고 하면 귀무가설이 참일 때 귀무가설을 기각하지 않을 확률의 최소 95%가 되고 총 세 가지의 검정별로 귀무가설이 참일 때 가능한 의사결정 유형의 확률을 정리해 보면 좋은 의사결정이 되기 위해서는 세 가지 의사결정에서 모두 귀무가설이 참일 때 귀무가설을 기각하지 말아야 하고 이 확률은 95%가 아니라 95%×95%×95%=86% 입니다. 또한, 검정 절차 중 어느 하나라도 잘못해서 귀무가설을 기각할 확률은 14%에 이르게 됩니다. 이처럼 세 집단 이상인 경우 이표본 가설검정 절차를 적용하면 가설검정의 오류를 관리하는 것이 쉽지 않습니다.

 

                                                  

 

 세 집단 이상 비교에서 가설검정의 오류를 효율적으로 제어할 수 있는 분석 방법이 동시검정이 가능한 분산분석(ANOVA; Analysis of Variance)입니다. 분산분석은 독립변수로 구분하는 세 개 이상의 집단에 속한 종속변수의 평균에 차이가 있는지 검정하는 분석방법으로 원인이 되는 독립변수는 명목형이나 서열형 척도로 측정한 값이고 결과가 되는 종속변수는 등간척도나 비율척도로 측정한 값일 때 적용 가능합니다.

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

 

 

 

 

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
45. 분산분석 ②  (0) 2018.03.15
43. 독립표본의 검정과 쌍체 비교  (0) 2017.09.25
42. 이표본 가설검정 ③  (0) 2017.09.13
41. 이표본 가설검정 ②  (0) 2017.09.11
Posted by dooka
,

이표본 가설검정은 전체 표본을 무작위로 두개의 집단으로 구분한 후 각각 서로 다른 실험처리를 적용하는 방법으로 진행합니다. 그렇게 함으로써 두 집단의 동질성을 평균적으로 확보할 수 있습니다. 그러나, 다이어트 약의 효과 여부를 파악하는 경우와 같이 연령, 성별, 비만 정도가 동일한 실험대상을 찾기가 현실적으로 어렵습니다. 다이어트 약 효과를 파악하기 위해 이표본 가설검정을 적용한다면 다이어트 약의 임상 효과와 다른 제3의 요인에 의한 효과를 정확하게 분리하는 것이 곤란해 질 수 있습니다. 이런 경우에는 동일한 실험대상자를 하나의 쌍으로 보아 다이어트 약을 복용하게 해서 복용 후와 복용 전의 효과를 비교하는 쌍체 비교(Paired T test)를 활용하는 것이 정확한 다이어트 약의 효과를 파악하기 위해 좋은 방법입니다.  서로 다른 광고 시안 A와 B에 대한 소비자 호감도를 파악하기 위해 표본으로 추출한 소비자 전체에 대해 무작위로 광고 시안 A와 B를 모두 보여 주고 이들 광고시안에 대한 호감도의 차이를 알아 보는 방법 역시 쌍체 비교의 한 예입니다.

이제 표본크기가 200명이고 이들 응답자들에게 서로 다른 광고 시안 A와 B를 무작위로 노출한 후 호감도를 평가하여 얻은 가상의 데이터 cc를 이용해 쌍체 비교를 실행해 보겠습니다. 가상의 데이터에서 변수 X는 광고 시안 A에 대한 호감도, 변수 Y는 광고 시안 B에 대한 호감도이며 변수 Z는 X와 Y의 차이 X-Y 입니다. 쌍체 비교의 자료 입력 방식이 이표본 가설검정의 그것과는 차이가 있음에 유념해야 합니다.

 

 

 

가상의 데이터 cc를 이용해 R에서 쌍체 비교를 실시한 결과는 아래와 같습니다. p-value 값은 0.003으로 유의수준 0.05 하에서 광고 시안 A와 B의 호감도는 차이가 없다는 귀무가설에 대한 강력한 반증이 되므로 광고 시안 B의 호감도가 A에 비해 더 높은 것으로 판단할 수 있습니다.

 

 

광고 시안 A, B에 대한 예에서 쌍체 비교 시 자유도는 200-2=198이 되는 반면, 동일한 내용의 이표본 가설 검정에서의 자유도는 400-2-398이 됩니다. 쌍체 비교는 표본크기와 자유도의 손실로 귀무가설을 기각하는 검정력이 이표본 가설검정에 비해 감소합니다. 그러나, 쌍체 비교는 쌍으로 구획하여 광고 시안 이외에 광고 시안에 대한 호감도에 영향을 미치는 요인들이 쌍 내의 개체들에게 동일하게 영향을 미치므로 X-Y의 분산이 감소하고 모집단 표준편차의 추정값이 감소하여 검정력을 증가시킵니다. 그러므로 이표본 가설검정과 쌍체 비교는 설문조사를 위한 비용 및 시간과 함께 얼마나 효과적으로 쌍으로의 구획이 가능한지에 따라 판단할 문제입니다. 표본크기가 증가하면 비용이 상승하므로 시장조사 실무에서는 이표본 가설검정보다는 쌍체 비교를 위한 조사설계를 선호하는 편입니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

                                        

cc.csv

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

45. 분산분석 ②  (0) 2018.03.15
44. 분산분석 ①  (0) 2018.01.03
42. 이표본 가설검정 ③  (0) 2017.09.13
41. 이표본 가설검정 ②  (0) 2017.09.11
41. p-value  (0) 2017.09.11
Posted by dooka
,

39. 이표본 가설검정 ①

41. 이표본 가설검정 ②

만약 표본크기가 크지 않다면 중심극한정리를 적용할 수 없으므로 모집단 분포가 정규분포를 따르는지 점검해야 합니다. R에서는 shapiro.test()명령으로 정규성 검정을 할 수 있습니다. 아래는 음료 제품에서 두종류의 향을 첨가하여 각각의 향에 대해 20명을 대상으로 각각호감도를 점검한 데이터 bb에 대해 정규성 검정을 실시한 결과입니다. p-value 값이 0.01로 데이터가 정규분포를 따른다고 보기 어렵고, t검정을 실시할 수 없습니다.

표본크기가 크지 않고 정규분포 모집단을 가정할 수 없다면 모집단 분포에 대해 특별한 가정을 전제로 하지 않는 비모수통계 방법을 적용합니다. 이표본 검정에 대응하는 비모수통계방법은 Wilcoxon 순위합 검정(Wilcoxon Rank-Sum Test) 입니다. Wilcoxon 순위합 검정을 실시하기 위해서는 원본 데이터 값을 사용하지 않고 그 순위를 데이터로 활용합니다. 원본 데이터 값이 클수록 순위 역시 큰 값을 가지도록 순위를 정하고 동점인 경우 동점인 값들의 평균 순위로 사용합니다. 예시 데이터 bb를 이용해 Wilcoxon 순위합 검정을 실시한 결과는 아래와 같고 음료제품의 서로 다른 향에 따른 호감도 차이는 없는 것으로 판단할 수 있습니다.

 

bb.csv

 

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

                                                          

 

 

'야행하는 리서치' 카테고리의 다른 글

44. 분산분석 ①  (0) 2018.01.03
43. 독립표본의 검정과 쌍체 비교  (0) 2017.09.25
41. 이표본 가설검정 ②  (0) 2017.09.11
41. p-value  (0) 2017.09.11
40. 정규분포와 t분포  (0) 2017.09.06
Posted by dooka
,

39. 이표본 가설검정 ①

이제 예시 데이터에서 서로 다른 패키지에 대한 호감도에 차이가 있는지 알아보기 위해 t검정을 실시해 보겠습니다. 이미 앞서 설명한 바와 같이 표본크기가 증가하면 t분포는 정규분포에 근사하므로 R에서도 정규분포에 근거한 가설검정을 별도로 제공하지 않고 t분포에 근거한 가설검정 절차만을 제공하고 있습니다. R에서 분산이 동일한 경우 두집단의 표본평균 비교를 위한 명령은 아래와 같습니다. R은 대문자와 소문자를 구분함에 유념해야 합니다. 아래 예시 분석 결과를 보면 p-value가 0.014로 귀무가설을 기각할 수 있는 강력한 증거가 됨을 알 수 있습니다.

단측검정을 위해서는 t.test() 명령에 alt='less' 또는 alt='greater' 옵션을 추가하여 실행하면 됩니다. 분석결과는 대립가설이 패키지 A의 호감도가 패키지 B의 호감도보다 작다는 대립 가설을 전제한 분석결과입니다. p-value 값이 0.007 이므로 귀무가설에 대한 강력한 반증이 된다고 보아 패키지 A의 호감도가 패키지 B의 호감도에 비해 더 작다고 판단할 수 있습니다.

 

등분산 검정 결과 두 집단의 분산이 동일하지 않다고 판단한다면 t.test() 명령의 옵션에서 ‘var.equal=TRUE' 옵션을 제외하고 실행합니다.

 

aa.csv

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

                                                       

 

'야행하는 리서치' 카테고리의 다른 글

43. 독립표본의 검정과 쌍체 비교  (0) 2017.09.25
42. 이표본 가설검정 ③  (0) 2017.09.13
41. p-value  (0) 2017.09.11
40. 정규분포와 t분포  (0) 2017.09.06
39. 이표본 가설검정 ①  (0) 2017.09.06
Posted by dooka
,

41. p-value

야행하는 리서치 2017. 9. 11. 09:00

귀무가설의 채택 여부를 결정하는 기준으로 통계분석프로그램에서 흔히 제시되는 값으로p-value가 입니다. p-value는 유의확률(significance probability)라고도 하는데, p-value는 검정통계량의 결과값에 대해 귀무가설을 기각할 수 있는 최소한의 유의수준을 말합니다. 만약 보다 작은 유의수준으로 귀무가설을 기각할 수 있다면 검정통계량의 결과값은 귀무가설 하에서 발생가능성이 보다 희박한 사건이 될 것이므로 p-value 값이 작을수록 대립가설에 대한 보다 강력한 증거가 됩니다. 즉 p-value는 설문조사의 결과가 대립가설을 반대하는 입증정도를 나타냅니다.

이미 주어진 유의수준 하에서 기각역을 계산할 수 있음에도 p-value를 제시하는 이유는 표본크기가 커질수록 표본의 표준편차 즉 표준오차가 작아지므로 미세한 차이도 구분이 가능해지고 실제 귀무가설이 참이건 거짓이건 상관없이 대부분의 경우에 귀무가설을 기각할 수 있기 때문입니다. 이러한 문제를 해결하기 위해 획일적인 유의수준을 제시하지 않고 의사결정자가 의사결정에 따른 오류 가능성을 어느 정도 받아 들이지에 따라 스스로 귀무가설의 기각여부를 판단할 수 있도록 p-value를 제시합니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

                                                     

 

 

Posted by dooka
,

정규분포의 표본분포 중 하나인 t-본포에 대해 알아보겠습니다. 통계분석 프로그램에서 가설검정을 흔히 t-검정이라고 지칭하고 있습니다. 그렇게 명명하는 이유는 정규분포와 t-분포 사이에 밀접한 관계가 있기 때문입니다. 만약 모집단 분포가 정확하게 정규분포를 따른다고 하면 표본평균을 표준화한 변수 Z에서 모집단의 분산을 제곱근한 표준편차 대신 표본의 표준편차를 대입한 새로운 변수 T는 자유도 n-1인 t분포를 따릅니다.

t분포는 정규분포와 마찬가지로 좌우대칭의 형태를 이루고 있으나 정규분포에 비해 극단치에 민감하여 정규분포에 비해 두꺼운 꼬리를 가지고 있습니다. 또한, t분포는 기본적으로 정규분포 모집단에서 표본크기가 작은 경우에 적용하기 위한 분포로서 표본크기가 증가하면 t분포는 정규분포에 근사합니다. t-분포는 정규분포 모집단의 표본분포이므로 t분포를 적용하기 위해서는 표본의 확률변수들의 분포가 정규분포에 적합해야 합니다.

우리는 앞에서 확률표본에서 표본크기가 증가하면 중심극한정리에 의해 근사적으로 Z는 평균이 0이고 분산이 1인 표준정규분포를 따름을 알았습니다. 그런데 표본크기가 증가하면 표본의 표준편차가 모집단의 표준편차에 근사하므로 모집단의 표준편차 대신 표본의 표준편차를 대입한 변수 역시 근사적으로 표준정규분포를 따르게 됩니다. 아래에서 A는 aymptotic의 약자로 근사적으로 해당 분포를 따른다는 의미입니다.

정규분포 모집단에서 표본크기가 작은 경우에는 t분포를 따르게 되고 표본크기가 증가하게 되면 t분포는 정규분포에 근사하므로 통계분석 프로그램에서는 구태여 정규분포에 근거한 검정과 t분포에 근거한 검정을 구분할 필요가 없습니다. 시장조사론 교재에서도 별 다른 구분 없이 t검정으로 통칭하는 경우가 많습니다. 물론 통계학 교재에서는 두 가지 경우를 준별하고 있습니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다. 

                                                     

 

 

Posted by dooka
,

總評

2017년 경영지도사 2차 시험 기출문제에 대해 언급하고자 합니다. 전체적으로 열심히 준비했다면 충분히 답변할 수 있는 내용들로 구성한 것으로 보입니다. 그러나 평이하게 출제한 문제라고 해서 변별력이 없을 것 같지는 않습니다. 평범한 문제들처럼 보이지만 정확하게 이해하고 있지 않다면 다소 어긋난 답안을 작성할 가능성도 있어 보입니다.

【 문제 1 】 A제과회사는 10대 학생층을 겨냥하여 세 종류의 청량음료를 개발하였다. 제품별 소비자반응을 확인하기 위해 남녀소비자가 각각 9명을 6개의 셀에 할당하고, 각 피실험자에게 세 제품 중 하나를 시음하게 하였다. 맛 선호도 테스트 자료와 통계처리 결과 값이 <표 1>부터 <표 3>과 같을 때, 다음 각 질문에 답하시오. (30점)

 

☞ 문제 解說 【 문제 1 】은 분산분석에 관한 문제로 수험생들이 문제를 풀이하는데 큰 어려움은 없었을 것으로 보입니다. 그러나 실험설계를 정확하게 이해하고 있는지 여부에 따라 득점에는 차이가 있을 것입니다.

(1) <표 1>의 자료 구조와 <표 3>의 결과를 얻는데 적합한 실험설계 방법을 제시하고, 그 이유를 설명하시오. (4점)

(※ 이 문제는 향후 약간 논란이 될 수도 있을 것 같습니다. 왜냐하면 성별은 절대 처리요인(treatment factor)이 될 수 없고 블록요인(block factor)으로 봐야 하므로 문제의 실험설계는 RBD(Randomized Block Design)로 보는 것이 타당한데, 문제에서는 RBD에서 생각할 수 없는 상호작용항을 제시하고 있기 때문입니다. 그러므로 문제의 취지는 이요인분석법(two way ANOVA)으로 접근하라는 것으로 판단할 수도 있습니다. 만약 이요인분산분석(two way ANOVA)이라면 남성×청량음료1, 남성×청량음료2, 남성×청량음료3, 여성×청량음료1, 여성×청량음료2, 여성×청량음료3 총 6가지 실험처리를 응답자에게 무작위로 적용할 수 있어야 하는데 우리가 성별을 결정할 능력은 없으므로 문제가 조금 어색해 집니다.)

본 문제에 적합한 실험설계방법은 요인배치법(factorial design)이며 그 중에서도 이원배치법에 해당한다. 문제에서의 실험은 세 종류의 청량음료 맛에 따라 소비자 선호도에 차이가 있는지, 성별에 따라 각각의 청량음료 맛에 따른 선호도 차이가 있는지를 분석하기 위한 조사이므로 청량음료의 맛과 성별이라는 두 가지 요인이 청량음료에 대한 선호도에 미치는 영향을 파악하는 이원배치법이 적합하다. 다만 성별과 청량음료 유형의 조합을 난선화(randomizing)할 수 없으므로 성별로는 블록화(blocking)하는 것이 현실적이라고 하겠다.

 

(2) <표 1>과 <표 3>에 비추어 이 연구의 귀무가설을 설정하시오. (6점)

문제에서는 총 세 종류의 귀무가설을 수립할 수 있다.

첫 번째 귀무가설 (H0) : 청량음료 종류에 따른 선호도에 차이는 없다

두 번째 귀무가설 (H0) : 성별에 따른 소비자 선호도의 차이는 없다

세 번째 귀무가설 (H0) : 청량음료의 종류와 성별의 상호작용 효과는 없다

(3) 질문 (2)에서 세운 귀무가설을 F검정통계량을 이용하여 유의수준에서 검증하고, <표 2>를 활용하여 검증 결과를 해석하시오. (12점)

귀무가설이 참이라면 위 청량음료 종류, 성별, 청량음료 종류와 성별의 상호작용이 청량음료의 선호도에 미치는 영향은 없고 결과에서 선호도의 차이는 온전히 기대하지 못한 오차의 영향으로 볼 수 있다. 그러므로 귀무가설 하에서는 청량음료 종류 평균제곱합과 오차항의 평균제곱합은 유사한 값을 가질 것이며, 성별 평균제곱합, 상호작용 평균제곱합 역시 귀무가설 하에서는 오차항의 평균제곱합과 유사한 값을 가질 것이다. 우리는 청량음료 종류 평균제곱합을 오차항의 평균제곱합으로 나눈 값이 일정한 기준보다 크다면 청량음료 종류에 따른 선호도에는 차이가 있다고 판단하고 그렇지 않다면 차이가 없는 것으로 판단하는 의사결정규칙을 수립할 수 있다.

분산분석의 가정을 만족할 경우 청량음료의 평균제곱합을 오차항의 평균제곱합으로 나눈 F비는 자유도가 2와 12인 F분포를 따른다. 유의 수준 0.05 하에서 의사결정의 기준이 되는 임계치는 3.89이고 청량음료 F비의 구체적인 값은 21.811이므로 청량음료의 F비 값은 주어진 유의수준 하에서 귀무가설에 대한 강력한 반증이 될 수 있고 청량음료 종류에 따른 선호도의 차이는 있는 것으로 판단할 수 있다.

동일한 방법으로 성별 F비에 대한 5% 유의수준 임계치는 4.75이며, 성별 F비의 실현값은 100.278이므로 F비 값은 귀무가설에 대한 강력한 반증이 된다고 할 수 있고 성별 선호도에는 차이가 있는 것으로 판단할 수 있다.

상호작용에 대한 F임계치 역시 3.89이며 구체적인 F비의 값은 1.344이므로 주어진 상호작용항의 F비 값은 귀무가설에 대한 강력한 반증이 될 수 없으며 성별과 청량음료 종류의 상호작용이 선호도에 미치는 영향은 없는 것으로 판단할 수 있다.

(4) 조사결과를 기초로 출시상품, 목표시장 그리고 적합한 광고매체를 제안하고 그 이유를 설명하시오. (8점)

청량음료의 종류에 따른 선호도에 차이가 있는 것으로 볼 수 있으므로 구체적인 선호관계는 본페로니 검정 등 사후 검정 절차가 필요하겠으나 자료의 결과만을 놓고 보면 청량음료1에 대한 선호도가 가장 높고 특히 여성층에서 상대적으로 선호도가 높은 것으로 나타났으므로 청량음료1을 여성시장을 목표시장으로 해서 출시하는 것이 성공가능성이 가장 높아 보인다. 출시 초기에는 인지도를 높이기 위해 목표시장에 대한 도달률이 높은 매체를 중심으로 광고를 집행하는 것이 효과적이므로 10대 여성층이 주로 보는 TV프로그램이나 유튜브 영상을 중심으로 광고를 집행해야 할 것으로 보인다.

 

【 문제 2 】 어떤 현상을 과학적으로 예측하려면 그 현상을 측정(measurement)하여야 한다. 다음 각 질문에 답하시오. (30점)

☞ 문제 解說 【 문제 2 】역시 큰 어려움 없이 해결할 수 있는 문제입니다. 다만, 양적변수(연속형 자료), 질적변수(범주형 자료)의 구분에 따라 분석방법이 달라진다는 점을 놓치지 말아야 하겠습니다.

(1) 측정의 개념에 관하여 설명하시오. (10점)

우리는 관찰한 사건에 대한 추상적 표현으로서의 개념만으로는 시장조사를 실시할 수 없고 추상적 개념을 측정 가능한 형태로 조작적 정의를 내릴 필요가 있다. 이처럼 경험적으로 측정 가능한 개념을 변수라고 하며 변수에 수치를 부여하는 작업을 측정이라고 한다.

(2) 척도의 개념과 각 유형을 설명하시오. (8점)

척도는 측정 시 수치를 부여하는 규칙을 말한다. 척도에는 명목척도, 서열척도, 등간척도 및 비율척도가 있다.

명목척도는 설문조사 대상을 분류하기 위해 수치를 부여한 척도를 말한다. 예를 들어 남성이며 1, 여성이면 2를 부여한다면 명목척도를 사용한 것이다. 명목척도에서는 사칙연산을 적용할 수 없고 표준적인 측정단위와 절대적인 0이 존재하지 않는다.

서열척도는 설문조사 대상 특성의 순서에 수치를 부여한 척도이다. 명목척도에서 순서에 의미는 없으나 서열척도에서는 순서에 의미가 있다. 다만, 상대적인 순서에 의미가 있을 뿐 서열간 차이의 강도를 나타낼 수는 없다. 서열 척도 역시 사칙연산을 적용할 수 없고 표준적인 측정단위와 절대적인 0이 존재하지 않는다.

등간척도는 설문조사 대상의 특성 크기의 서열뿐만 아니라 대상들 간의 차이까지 알 수 있는 척도이다. 등간척도로 변수를 측정할 경우 설문조사 대상들이 가지는 특성의 상대적 크기를 측정할 수 있으며 서로 비교할 수도 있다. 예를 들어 고객의 전반적 만족도 수준이 ‘매우 불만족’이며 1점, ‘불만족’이면 2점, ‘보통’이면 3점, ‘만족’이면 4점, ‘매우 만족’이면 5점을 부여하는 경우가 등간척도를 적용한 변수에 해당한다. 등간척도는 사칙연산 중 덧셈과 뺄셈을 적용할 수 있고 표준적인 측정단위도 적용 가능하지만 절대적인 ‘0’은 존재하지 않는다.

비율척도는 설문조사 대상이 가지는 특성의 상대적 크기비교 외에 절대적 크기까지 측정할 수 있는 척도를 말한다. 비율척도는 사칙연산을 모두 적용할 수 있으며, 표본적인 측정단위도 적용가능하다. 또한, 절대적인 ‘0’이 존재한다. 예를 들어 특정 휴대폰의 무게가 10kg이라고 한다면 다른 휴대폰 제품과 비교하지 않아도 터무니없이 무겁다는 생각을 해볼 수 있는데 이는 절대적인 ‘0’을 근거로 그 무게를 판단할 수 있기 때문이다.

(3) 변수의 개념과 양적·질적변수에 관하여 설명하시오. (12점)

경험적으로 측정 가능한 개념을 변수라고 한다. 변수는 조사 대상에 따라 다른 값을 가질 수 있다. 예를 들어 표본평균은 표본조사를 반복하면 다른 값을 가질 수 있는 변수이며, 구체적인 표본평균 값과 구분해야 한다.

변수는 사칙연산을 적용할 수 없고 표준측정단위가 없는 질적변수와 사칙연산을 전부 혹은 일부 적용할 수 있으며 표본측정단위가 있는 양적변수로 분류할 수 있다. 명목척도와 서열척도로 측정한 변수가 질적변수에 해당하고 질적변수로 만들어진 자료를 특히 범주형 자료라고 한다. 반면 등간척도와 비율척도로 측정한 변수가 양적변수이며 양절변수로 만들어진 자료를 연속형 자료라고 한다.

양적변수와 질적변수의 구분이 중요한 이유는 양적·질적변수 여부에 따라 분석방법이 달라지기 때문이다. 예를 들어 원인이 되는 독립변수가 질적변수이고 종속변수가 양적변수라면 분산분석을 적용해야 하고 독립변수와 종속변수가 모두 질적변수라면 분할표 검정을 분석방법으로 적용하게 된다.

 

'야행하는 리서치' 카테고리의 다른 글

41. p-value  (0) 2017.09.11
40. 정규분포와 t분포  (0) 2017.09.06
39. 이표본 가설검정 ①  (0) 2017.09.06
38. 가설검정③  (0) 2017.09.04
37. 가설검정②  (0) 2017.08.29
Posted by dooka
,

통계적 가설검정에서는 단일표본에 대한 가설검정보다는 실험집단과 통제집단에 서로 다른 실험처리(treatment)를 적용해서 두 집단의 평균을 비교하는 이표본 가설검정이 일반적입니다. 이표본 가설검정을 적용하기 위해서는 확률추출법을 적용한 n개의 개체에 대해 처음 처리1을 적용할 n1개를 임의추출하고 나머지 n-n1=n2개의 개체들에 대해서는 처리2를 적용합니다. 이와 같이 실험처리를 적용하게 되면 각 개체들의 실험처리에 대한 반응값에는 실험처리에 의한 효과 이외의 다른 요인들의 영향을 평균적으로는 동일하게 제어할 수 있습니다. 예를 들어 제품 패키지 A와 B에 대한 호감도를 알아보기 위한 조사에서 표본추출 후 설문조사 진행 시 패키지 A와 B를 무작위로 노출하게 되면 A를 접한 응답자들과 B를 접한 응답자들은 서로 다른 패키지에 노출되었다는 점 외에 다른 특성들은 평균적으로 동일하다고 볼 수 있습니다.

이제 구체적으로 오픈소스 프로그램 R을 이용한 이표본 가설검정 절차에 대해 알아 보겠습니다. 이표본 가설검정의 데이터 형태는 아래와 같습니다. 파일의 저장형식은 CSV파일로 지정해 줍니다. 데이터에서 package는 제품 패키지 유형을 구분하는 명목형 변수이고 변수x는 각 패키지에 대한 5점 만점 호감도입니다.

이표본 가설검정을 실행하기에 앞서 먼저 두 집단의 분산이 동일한지에 대한 검정을 실시해야 합니다. 왜냐하면 분산이 동일한지 여부에 따라 표본분산의 계산방법이 달라지고 그에 다라 검정통계량과 임계치의 값이 달라지기 때문입니다.

만약 두 집단의 분산이 다르다면 두 집단은 서로 독립이므로 두 집단의 표본평균의 차이에 대한 분산은 각각의 표본분산을 합산하여 구하면 되지만 두 집단의 분산이 동일하다면 pooled variance를 활용하여 표본평균의 차이에 대한 표본분산을 구해야 합니다. 분산이 동일한 경우 표본분산은 pooled variance×(1/n1+1/n2)로 계산하며 pooled variance는 두 집단의 표본분산에 각각의 자유도 즉 각각의 표본크기에서 1을 뺀 수를 곱하여 더한 후 전체 자유도 n1+n2-2로 나누어 줌으로서 구합니다. 전체 자유도를 전체 표본크기에서 1이 아닌 2를 차감해서 구하는 이유는 각각의 표본분산을 구하는데 이미 2만큼의 정보를 사용했기 때문입니다.

 

pooled variance= [(n1-1)+(n2-1)]/(n1+n2-2)

먼저 등분산 가정에 대한 가설검정에 앞서 R의 파일 메뉴에서 작업 디렉토리를 지정해 줍니다. 표본평균에 대한 이표본 가설검정에 앞서 등분산 여부를 검정하는 R의 실행명령어는 다음과 같습니다. 먼저 등분산 가정에 대한 가설검정에 앞서 R의 파일 메뉴에서 작업 디렉토리를 지정해 줍니다. 그리고 해당 디렉토리에 aa라는 이름으로 저장해 둔 CSV파일을 불러 옵니다. 분산의 동일성을 검정하는 명령어는 var.test(실험처리에 대한 반응변수~실험처리 유형을 구분하는 독립변수, data=검정대상파일명)입니다. R에서 등분산 검정을 실행한 결과는 아래와 같습니다.

 

 

먼저 F가 눈에 띄는데 이는 F분포를 따르는 검정통계량을 의미합니다. F분포 역시 t분포와 마찬가지로 정규분포 모집단의 표본분포입니다. 두 집단이 서로 독립이고 정규분포를 따르는 경우 각각의 표본분산에 각 집단의 자유도를 곱하여 모분산으로 나눈 확률변수의 비(比)인 통계량 F는 자유도가 n1-1, n2-1인 F분포를 따르게 됩니다. 제곱합 형태의 통계량이므로 항상 0보다 큰 값을 가지며 오른쪽으로 긴 꼬리를 가지는 기울어진 형태를 가지고 있습니다.

 

 

aa.csv

 

직관적으로 본다면 검정통계량인 F는 두 집단의 분산이 동일하다는 귀무가설 하에서는 1에 가까운 값을 가질 것입니다. 결과에서 p-value 값은 0.61로 유의수준 0.05보다 큰 값을 가지므로 귀무가설을 기각할 수 없고 두 집단의 분산은 동일하다고 볼 수 있습니다.

 

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

                                                     

 

 

 

 

 

Posted by dooka
,

36. 가설검정 ①

37. 가설검정 ②

지금까지 통계적 가설검정의 원리를 이해했으므로 관련 개념 및 기본원리와 통계적 가설검정의 일반적인 절차를 정리해 보겠습니다.

            

 

 

이제 지지율에 대한 가설검정 사례를 통해 통계적 가설검정 절차를 일별해 보겠습니다. 광역지방자치단체장을 선출하는 선거에 출마한 특정 후보의 선거운동본부에서는 해당후보의 지지율이 20%를 넘어가는지 여부에 따라 홍보전략을 달리 하기로 했고 해당 광역지방자치단체 유권자 전체로부터 확률표본 400명을 추출했다고 가정해보겠습니다. 귀무가설은 지지율 p가 20%보다 작은 것으로, 대립가설은 지지율 p가 20%보다 큰 것으로 설정하고 귀무가설 하에서 지지율의 표본분포를 구해보면 지지율은 근사적으로 평균이 0.2이고 분산이 0.2×(1-0.8)/400=0.0004인 정규분포에 근사합니다.

 

유의수준 5% 하에서 만족하는 c값을 구하고 표본으로부터 구한 지지율이 c값보다 크면 귀무가설을 기각하는 의사결정을 내리면 됩니다. (c-0.2)/=z0.05 = 1.64에서 c값을 구하면 0.233입니다. 만약 표본으로부터 구한 지지율이 23.3%보다 크다면 모집단 지지율 20%이하일 경우 매우 희귀한 사건이라고 할 수 있으므로 귀무가설을 기각할 수 있는 강력한 증거가 됩니다.

이와 같이 부등호가 한쪽 방향으로 설정되어 표본분포의 한쪽 꼬리에 기각역을 정하는 가설검정을 단측검정이라고 합니다. 만약 위 지지율 사례에서 귀무가설을 지지율 20%와 같다라고 설정하면 표본분포의 양쪽 꼬리에 기각역을 정하는 양측검정이 됩니다. 위 지지율 사례에서 지지율은 20%라는 귀무가설에 대해 표본의 지지율이 -c보다 작거나 c보다 크면 귀무가설을 기각한다고 해보겠습니다. 양측검정인 귀무가설 하에서는 아래의 수식이 성립합니다.

여기에서 아래의 등식을 -c와 c에 대해 정리하면 -c=0.161, c=0.239 입니다. 표본의 지지율이 16.1%보다 작거나 23.9%보다 크다면 지지율은 20%라는 귀무가설을 기각할 강력한 증거가 됩니다.

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

                                       

 

 

 

 

Posted by dooka
,

 

 

36. 가설검정 ①

 

 

지난 포스팅에 이어 가설검정의 기본원리에 대해 알아보겠습니다. 언제나 늑대가 나타났다고 거짓말하는 양치기 소년의 우화를 생각해 보면 실제로 늑대가 나타났는지 여부와 양치기 소년이 늑대가 나타났다고 말하는지 여부에 따라 네 가지 경우가 존재합니다. 이 중 귀무가설이 참임에도 불구하고 귀무가설을 기각할 가능성을 제1종 오류라고 하고 대립가설이 참임에도 불구하고 귀무가설을 채택할 가능성을 제2종 오류라고 합니다. 대립가설이 참일 때 대립가설을 채택할 가능성을 특히 검정력(power)라고 합니다.

 

                          

 

귀무가설이 참이라는 가정 하에서 확률표본을 이용하여 구한 모수에 대한 추정량을 검정통계량이라고 합니다. 이 검정통계량의 값을 가설채택 여부의 기준이 되는 임계치와 비교하여 가설 채택 여부를 결정하게 됩니다. 만약 양치기 소년이 검정통계량이라면 매우 나쁜 검정 통계량임을 알 수 있습니다. 언제나 늑대가 나타났다고 말하므로 제2종 오류의 가능성은 0이 되고 검정력은 극대화되지만 제1종 오류의 가능성 역시 극대화됩니다.

통계적 가설 검정에서 대립가설이 참일 경우 귀무가설을 기각할 확률 즉 검정력을 아래 그림과 같이 I+II에서 I+II+III+IV로 높이기 위해 가설 채택 여부의 기준이 되는 임계치를 C1에서 C2로 변경한다면, 잘못해서 귀무가설을 기각할 확률 즉 제1종 오류를 범할 확률 역시 II에서 II+IV로 증가함을 알 수 있습니다. 표본크기가 주어진 경우 제1종 오류를 범할 확률과 제2종 오류를 범할 확률을 동시에 감소시킬 수는 없음을 알 수 있습니다. 그러므로 오류 발생 시 발생할 위험이 중요한 유형의 오류를 최대 허용 수준을 지정한 후 나머지 오류를 극소화하는 방식으로 의사결정규칙을 정하는 것이 위험 회피 관점에서 합리적입니다.

현재 상황을 유지하는 경우보다는 현재 상황을 변경하는 경우의 위험이 더 큰 것이 일반적이기 때문에, 잘못해서 현재의 상황을 지지하는 귀무가설을 기각하는 제1종 오류가 제2종 오류보다는 더 중요한 오류라고 볼 수 있습니다. 그렇다면 제1종 오류를 범할 확률의 최대 허용 상한인 유의수준을 정한 후에 그 범위 내에서 잘못해서 귀무가설을 기각하지 못하는 제2종 오류를 극소화하는, 즉 실제 귀무가설이 틀렸을 때 귀무가설을 기각하는 검정력(power)을 극대화하는 의사결정규칙을 찾아야 합니다.

가상의 시장에서 신제품 컨셉트의 10점 만점 호감도가 7점보다 큰 값을 가지는지가 관심인 사례에서 호감도가 7보다 작거나 같다는 귀무가설 하에서는 고려해야할 표본평균값은 무수히 많습니다. 그러나 일단 가설 채택 여부의 기준이 되는 임계치를 설정하고 보면 평균 호감도가 7일 때 잘못해서 귀무가설을 기각할 제1종 오류를 범할 확률이 최대가 되므로 우리는 평균 호감도가 7인 경우의 표본분포만을 고려하면 됩니다. 그림에서 임계치를 c1으로 설정했을 때 평균이 7인 경우의 제1종 오류를 범할 확률(영역 II)과 평균이 7보다 작은 경우의 제1종 오류를 범할 확률을 비교해보면 전자가 후자보다 더 큰 값을 가짐을 시각적으로 확인할 수 있습니다.

우리는 제품 컨셉트의 호감도가 7보다 큰 값인지 여부가 관심인 사례에서 가능한 귀무가설 하의 표본분포 중에서 평균이 7인 경우의 표본분포에서 제1종류를 범할 확률이 최대가 됨을 확인했습니다. 잘못해서 귀무가설을 기각할 오류인 제1종 오류를 범할 확률의 상한인 유의수준은 가능한 귀무가설 하의 여러 표본평균 중 경계에 있는 값, 사례에서는 평균 호감도 7을 기준으로 지정하면 되는 것입니다. 만약 유의수준을 위 그림의 영역II의 면적이 되도록 정했다면 이에 대응하는 검정통계량 값 c1보다 같거나 큰 값 중에서 검정력이 가장 큰 값을 임계치로 설정하면 가설검정을 위한 의사결정규칙을 완성하게 됩니다. 변수값 c1에 대응하는 검정력은 영역 I+II의 면적이 되고 이 면적이 대립가설 하에서는 c1보다 큰 어떤 값의 검정력보다 크다는 사실을 확인할 수 있습니다. 귀무가설 하에서의 제1종 오류를 범할 확률의 상한인 유의수준을 정하고 유의수준에 대응하는 변수 값을 구하면 대립가설 하에서 그 값에 대응하는 검정력이 가장 커지므로 귀무가설 하에서 유의수준에 대응하는 변수 값을 가설채택 여부의 기준이 되는 임계치로 설정하면 됩니다. 즉, 귀무가설이 참일 때의 검정통계량 표본분포의 꼬리 부분에 유의수준 크기에 대응하는 기각역을 설정하면 잘못해서 귀무가설을 채택할 제2종 오류를 최소화할 수 있습니다. 여기서 기각역이란 임계치 이상의 값을 가지는 검정통계량의 부분집합을 말하며 검정통계량의 값이 이 영역에 속하면 귀무가설을 기각합니다. 통계적 가설검정에서 제1종 오류를 범할 확률의 상한인 유의수준의 의미는 가설검정을 반복할 때 잘못하여 귀무가설을 기각할 확률이 유의수준 이하라는 의미를 담고 있습니다.

 

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

'야행하는 리서치' 카테고리의 다른 글

39. 이표본 가설검정 ①  (0) 2017.09.06
38. 가설검정③  (0) 2017.09.04
36. 가설검정①  (0) 2017.08.18
35. 통계적 추정의 기본원리②  (0) 2017.08.02
34. 통계적 추정의 기본원리①  (0) 2017.07.26
Posted by dooka
,