41. p-value

야행하는 리서치 2017. 9. 11. 09:00

귀무가설의 채택 여부를 결정하는 기준으로 통계분석프로그램에서 흔히 제시되는 값으로p-value가 입니다. p-value는 유의확률(significance probability)라고도 하는데, p-value는 검정통계량의 결과값에 대해 귀무가설을 기각할 수 있는 최소한의 유의수준을 말합니다. 만약 보다 작은 유의수준으로 귀무가설을 기각할 수 있다면 검정통계량의 결과값은 귀무가설 하에서 발생가능성이 보다 희박한 사건이 될 것이므로 p-value 값이 작을수록 대립가설에 대한 보다 강력한 증거가 됩니다. 즉 p-value는 설문조사의 결과가 대립가설을 반대하는 입증정도를 나타냅니다.

이미 주어진 유의수준 하에서 기각역을 계산할 수 있음에도 p-value를 제시하는 이유는 표본크기가 커질수록 표본의 표준편차 즉 표준오차가 작아지므로 미세한 차이도 구분이 가능해지고 실제 귀무가설이 참이건 거짓이건 상관없이 대부분의 경우에 귀무가설을 기각할 수 있기 때문입니다. 이러한 문제를 해결하기 위해 획일적인 유의수준을 제시하지 않고 의사결정자가 의사결정에 따른 오류 가능성을 어느 정도 받아 들이지에 따라 스스로 귀무가설의 기각여부를 판단할 수 있도록 p-value를 제시합니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

                                                     

 

 

Posted by dooka
,

정규분포의 표본분포 중 하나인 t-본포에 대해 알아보겠습니다. 통계분석 프로그램에서 가설검정을 흔히 t-검정이라고 지칭하고 있습니다. 그렇게 명명하는 이유는 정규분포와 t-분포 사이에 밀접한 관계가 있기 때문입니다. 만약 모집단 분포가 정확하게 정규분포를 따른다고 하면 표본평균을 표준화한 변수 Z에서 모집단의 분산을 제곱근한 표준편차 대신 표본의 표준편차를 대입한 새로운 변수 T는 자유도 n-1인 t분포를 따릅니다.

t분포는 정규분포와 마찬가지로 좌우대칭의 형태를 이루고 있으나 정규분포에 비해 극단치에 민감하여 정규분포에 비해 두꺼운 꼬리를 가지고 있습니다. 또한, t분포는 기본적으로 정규분포 모집단에서 표본크기가 작은 경우에 적용하기 위한 분포로서 표본크기가 증가하면 t분포는 정규분포에 근사합니다. t-분포는 정규분포 모집단의 표본분포이므로 t분포를 적용하기 위해서는 표본의 확률변수들의 분포가 정규분포에 적합해야 합니다.

우리는 앞에서 확률표본에서 표본크기가 증가하면 중심극한정리에 의해 근사적으로 Z는 평균이 0이고 분산이 1인 표준정규분포를 따름을 알았습니다. 그런데 표본크기가 증가하면 표본의 표준편차가 모집단의 표준편차에 근사하므로 모집단의 표준편차 대신 표본의 표준편차를 대입한 변수 역시 근사적으로 표준정규분포를 따르게 됩니다. 아래에서 A는 aymptotic의 약자로 근사적으로 해당 분포를 따른다는 의미입니다.

정규분포 모집단에서 표본크기가 작은 경우에는 t분포를 따르게 되고 표본크기가 증가하게 되면 t분포는 정규분포에 근사하므로 통계분석 프로그램에서는 구태여 정규분포에 근거한 검정과 t분포에 근거한 검정을 구분할 필요가 없습니다. 시장조사론 교재에서도 별 다른 구분 없이 t검정으로 통칭하는 경우가 많습니다. 물론 통계학 교재에서는 두 가지 경우를 준별하고 있습니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다. 

                                                     

 

 

Posted by dooka
,

總評

2017년 경영지도사 2차 시험 기출문제에 대해 언급하고자 합니다. 전체적으로 열심히 준비했다면 충분히 답변할 수 있는 내용들로 구성한 것으로 보입니다. 그러나 평이하게 출제한 문제라고 해서 변별력이 없을 것 같지는 않습니다. 평범한 문제들처럼 보이지만 정확하게 이해하고 있지 않다면 다소 어긋난 답안을 작성할 가능성도 있어 보입니다.

【 문제 1 】 A제과회사는 10대 학생층을 겨냥하여 세 종류의 청량음료를 개발하였다. 제품별 소비자반응을 확인하기 위해 남녀소비자가 각각 9명을 6개의 셀에 할당하고, 각 피실험자에게 세 제품 중 하나를 시음하게 하였다. 맛 선호도 테스트 자료와 통계처리 결과 값이 <표 1>부터 <표 3>과 같을 때, 다음 각 질문에 답하시오. (30점)

 

☞ 문제 解說 【 문제 1 】은 분산분석에 관한 문제로 수험생들이 문제를 풀이하는데 큰 어려움은 없었을 것으로 보입니다. 그러나 실험설계를 정확하게 이해하고 있는지 여부에 따라 득점에는 차이가 있을 것입니다.

(1) <표 1>의 자료 구조와 <표 3>의 결과를 얻는데 적합한 실험설계 방법을 제시하고, 그 이유를 설명하시오. (4점)

(※ 이 문제는 향후 약간 논란이 될 수도 있을 것 같습니다. 왜냐하면 성별은 절대 처리요인(treatment factor)이 될 수 없고 블록요인(block factor)으로 봐야 하므로 문제의 실험설계는 RBD(Randomized Block Design)로 보는 것이 타당한데, 문제에서는 RBD에서 생각할 수 없는 상호작용항을 제시하고 있기 때문입니다. 그러므로 문제의 취지는 이요인분석법(two way ANOVA)으로 접근하라는 것으로 판단할 수도 있습니다. 만약 이요인분산분석(two way ANOVA)이라면 남성×청량음료1, 남성×청량음료2, 남성×청량음료3, 여성×청량음료1, 여성×청량음료2, 여성×청량음료3 총 6가지 실험처리를 응답자에게 무작위로 적용할 수 있어야 하는데 우리가 성별을 결정할 능력은 없으므로 문제가 조금 어색해 집니다.)

본 문제에 적합한 실험설계방법은 요인배치법(factorial design)이며 그 중에서도 이원배치법에 해당한다. 문제에서의 실험은 세 종류의 청량음료 맛에 따라 소비자 선호도에 차이가 있는지, 성별에 따라 각각의 청량음료 맛에 따른 선호도 차이가 있는지를 분석하기 위한 조사이므로 청량음료의 맛과 성별이라는 두 가지 요인이 청량음료에 대한 선호도에 미치는 영향을 파악하는 이원배치법이 적합하다. 다만 성별과 청량음료 유형의 조합을 난선화(randomizing)할 수 없으므로 성별로는 블록화(blocking)하는 것이 현실적이라고 하겠다.

 

(2) <표 1>과 <표 3>에 비추어 이 연구의 귀무가설을 설정하시오. (6점)

문제에서는 총 세 종류의 귀무가설을 수립할 수 있다.

첫 번째 귀무가설 (H0) : 청량음료 종류에 따른 선호도에 차이는 없다

두 번째 귀무가설 (H0) : 성별에 따른 소비자 선호도의 차이는 없다

세 번째 귀무가설 (H0) : 청량음료의 종류와 성별의 상호작용 효과는 없다

(3) 질문 (2)에서 세운 귀무가설을 F검정통계량을 이용하여 유의수준에서 검증하고, <표 2>를 활용하여 검증 결과를 해석하시오. (12점)

귀무가설이 참이라면 위 청량음료 종류, 성별, 청량음료 종류와 성별의 상호작용이 청량음료의 선호도에 미치는 영향은 없고 결과에서 선호도의 차이는 온전히 기대하지 못한 오차의 영향으로 볼 수 있다. 그러므로 귀무가설 하에서는 청량음료 종류 평균제곱합과 오차항의 평균제곱합은 유사한 값을 가질 것이며, 성별 평균제곱합, 상호작용 평균제곱합 역시 귀무가설 하에서는 오차항의 평균제곱합과 유사한 값을 가질 것이다. 우리는 청량음료 종류 평균제곱합을 오차항의 평균제곱합으로 나눈 값이 일정한 기준보다 크다면 청량음료 종류에 따른 선호도에는 차이가 있다고 판단하고 그렇지 않다면 차이가 없는 것으로 판단하는 의사결정규칙을 수립할 수 있다.

분산분석의 가정을 만족할 경우 청량음료의 평균제곱합을 오차항의 평균제곱합으로 나눈 F비는 자유도가 2와 12인 F분포를 따른다. 유의 수준 0.05 하에서 의사결정의 기준이 되는 임계치는 3.89이고 청량음료 F비의 구체적인 값은 21.811이므로 청량음료의 F비 값은 주어진 유의수준 하에서 귀무가설에 대한 강력한 반증이 될 수 있고 청량음료 종류에 따른 선호도의 차이는 있는 것으로 판단할 수 있다.

동일한 방법으로 성별 F비에 대한 5% 유의수준 임계치는 4.75이며, 성별 F비의 실현값은 100.278이므로 F비 값은 귀무가설에 대한 강력한 반증이 된다고 할 수 있고 성별 선호도에는 차이가 있는 것으로 판단할 수 있다.

상호작용에 대한 F임계치 역시 3.89이며 구체적인 F비의 값은 1.344이므로 주어진 상호작용항의 F비 값은 귀무가설에 대한 강력한 반증이 될 수 없으며 성별과 청량음료 종류의 상호작용이 선호도에 미치는 영향은 없는 것으로 판단할 수 있다.

(4) 조사결과를 기초로 출시상품, 목표시장 그리고 적합한 광고매체를 제안하고 그 이유를 설명하시오. (8점)

청량음료의 종류에 따른 선호도에 차이가 있는 것으로 볼 수 있으므로 구체적인 선호관계는 본페로니 검정 등 사후 검정 절차가 필요하겠으나 자료의 결과만을 놓고 보면 청량음료1에 대한 선호도가 가장 높고 특히 여성층에서 상대적으로 선호도가 높은 것으로 나타났으므로 청량음료1을 여성시장을 목표시장으로 해서 출시하는 것이 성공가능성이 가장 높아 보인다. 출시 초기에는 인지도를 높이기 위해 목표시장에 대한 도달률이 높은 매체를 중심으로 광고를 집행하는 것이 효과적이므로 10대 여성층이 주로 보는 TV프로그램이나 유튜브 영상을 중심으로 광고를 집행해야 할 것으로 보인다.

 

【 문제 2 】 어떤 현상을 과학적으로 예측하려면 그 현상을 측정(measurement)하여야 한다. 다음 각 질문에 답하시오. (30점)

☞ 문제 解說 【 문제 2 】역시 큰 어려움 없이 해결할 수 있는 문제입니다. 다만, 양적변수(연속형 자료), 질적변수(범주형 자료)의 구분에 따라 분석방법이 달라진다는 점을 놓치지 말아야 하겠습니다.

(1) 측정의 개념에 관하여 설명하시오. (10점)

우리는 관찰한 사건에 대한 추상적 표현으로서의 개념만으로는 시장조사를 실시할 수 없고 추상적 개념을 측정 가능한 형태로 조작적 정의를 내릴 필요가 있다. 이처럼 경험적으로 측정 가능한 개념을 변수라고 하며 변수에 수치를 부여하는 작업을 측정이라고 한다.

(2) 척도의 개념과 각 유형을 설명하시오. (8점)

척도는 측정 시 수치를 부여하는 규칙을 말한다. 척도에는 명목척도, 서열척도, 등간척도 및 비율척도가 있다.

명목척도는 설문조사 대상을 분류하기 위해 수치를 부여한 척도를 말한다. 예를 들어 남성이며 1, 여성이면 2를 부여한다면 명목척도를 사용한 것이다. 명목척도에서는 사칙연산을 적용할 수 없고 표준적인 측정단위와 절대적인 0이 존재하지 않는다.

서열척도는 설문조사 대상 특성의 순서에 수치를 부여한 척도이다. 명목척도에서 순서에 의미는 없으나 서열척도에서는 순서에 의미가 있다. 다만, 상대적인 순서에 의미가 있을 뿐 서열간 차이의 강도를 나타낼 수는 없다. 서열 척도 역시 사칙연산을 적용할 수 없고 표준적인 측정단위와 절대적인 0이 존재하지 않는다.

등간척도는 설문조사 대상의 특성 크기의 서열뿐만 아니라 대상들 간의 차이까지 알 수 있는 척도이다. 등간척도로 변수를 측정할 경우 설문조사 대상들이 가지는 특성의 상대적 크기를 측정할 수 있으며 서로 비교할 수도 있다. 예를 들어 고객의 전반적 만족도 수준이 ‘매우 불만족’이며 1점, ‘불만족’이면 2점, ‘보통’이면 3점, ‘만족’이면 4점, ‘매우 만족’이면 5점을 부여하는 경우가 등간척도를 적용한 변수에 해당한다. 등간척도는 사칙연산 중 덧셈과 뺄셈을 적용할 수 있고 표준적인 측정단위도 적용 가능하지만 절대적인 ‘0’은 존재하지 않는다.

비율척도는 설문조사 대상이 가지는 특성의 상대적 크기비교 외에 절대적 크기까지 측정할 수 있는 척도를 말한다. 비율척도는 사칙연산을 모두 적용할 수 있으며, 표본적인 측정단위도 적용가능하다. 또한, 절대적인 ‘0’이 존재한다. 예를 들어 특정 휴대폰의 무게가 10kg이라고 한다면 다른 휴대폰 제품과 비교하지 않아도 터무니없이 무겁다는 생각을 해볼 수 있는데 이는 절대적인 ‘0’을 근거로 그 무게를 판단할 수 있기 때문이다.

(3) 변수의 개념과 양적·질적변수에 관하여 설명하시오. (12점)

경험적으로 측정 가능한 개념을 변수라고 한다. 변수는 조사 대상에 따라 다른 값을 가질 수 있다. 예를 들어 표본평균은 표본조사를 반복하면 다른 값을 가질 수 있는 변수이며, 구체적인 표본평균 값과 구분해야 한다.

변수는 사칙연산을 적용할 수 없고 표준측정단위가 없는 질적변수와 사칙연산을 전부 혹은 일부 적용할 수 있으며 표본측정단위가 있는 양적변수로 분류할 수 있다. 명목척도와 서열척도로 측정한 변수가 질적변수에 해당하고 질적변수로 만들어진 자료를 특히 범주형 자료라고 한다. 반면 등간척도와 비율척도로 측정한 변수가 양적변수이며 양절변수로 만들어진 자료를 연속형 자료라고 한다.

양적변수와 질적변수의 구분이 중요한 이유는 양적·질적변수 여부에 따라 분석방법이 달라지기 때문이다. 예를 들어 원인이 되는 독립변수가 질적변수이고 종속변수가 양적변수라면 분산분석을 적용해야 하고 독립변수와 종속변수가 모두 질적변수라면 분할표 검정을 분석방법으로 적용하게 된다.

 

'야행하는 리서치' 카테고리의 다른 글

41. p-value  (0) 2017.09.11
40. 정규분포와 t분포  (0) 2017.09.06
39. 이표본 가설검정 ①  (0) 2017.09.06
38. 가설검정③  (0) 2017.09.04
37. 가설검정②  (0) 2017.08.29
Posted by dooka
,