總評

2017년 경영지도사 2차 시험 기출문제에 대해 언급하고자 합니다. 전체적으로 열심히 준비했다면 충분히 답변할 수 있는 내용들로 구성한 것으로 보입니다. 그러나 평이하게 출제한 문제라고 해서 변별력이 없을 것 같지는 않습니다. 평범한 문제들처럼 보이지만 정확하게 이해하고 있지 않다면 다소 어긋난 답안을 작성할 가능성도 있어 보입니다.

【 문제 1 】 A제과회사는 10대 학생층을 겨냥하여 세 종류의 청량음료를 개발하였다. 제품별 소비자반응을 확인하기 위해 남녀소비자가 각각 9명을 6개의 셀에 할당하고, 각 피실험자에게 세 제품 중 하나를 시음하게 하였다. 맛 선호도 테스트 자료와 통계처리 결과 값이 <표 1>부터 <표 3>과 같을 때, 다음 각 질문에 답하시오. (30점)

 

☞ 문제 解說 【 문제 1 】은 분산분석에 관한 문제로 수험생들이 문제를 풀이하는데 큰 어려움은 없었을 것으로 보입니다. 그러나 실험설계를 정확하게 이해하고 있는지 여부에 따라 득점에는 차이가 있을 것입니다.

(1) <표 1>의 자료 구조와 <표 3>의 결과를 얻는데 적합한 실험설계 방법을 제시하고, 그 이유를 설명하시오. (4점)

(※ 이 문제는 향후 약간 논란이 될 수도 있을 것 같습니다. 왜냐하면 성별은 절대 처리요인(treatment factor)이 될 수 없고 블록요인(block factor)으로 봐야 하므로 문제의 실험설계는 RBD(Randomized Block Design)로 보는 것이 타당한데, 문제에서는 RBD에서 생각할 수 없는 상호작용항을 제시하고 있기 때문입니다. 그러므로 문제의 취지는 이요인분석법(two way ANOVA)으로 접근하라는 것으로 판단할 수도 있습니다. 만약 이요인분산분석(two way ANOVA)이라면 남성×청량음료1, 남성×청량음료2, 남성×청량음료3, 여성×청량음료1, 여성×청량음료2, 여성×청량음료3 총 6가지 실험처리를 응답자에게 무작위로 적용할 수 있어야 하는데 우리가 성별을 결정할 능력은 없으므로 문제가 조금 어색해 집니다.)

본 문제에 적합한 실험설계방법은 요인배치법(factorial design)이며 그 중에서도 이원배치법에 해당한다. 문제에서의 실험은 세 종류의 청량음료 맛에 따라 소비자 선호도에 차이가 있는지, 성별에 따라 각각의 청량음료 맛에 따른 선호도 차이가 있는지를 분석하기 위한 조사이므로 청량음료의 맛과 성별이라는 두 가지 요인이 청량음료에 대한 선호도에 미치는 영향을 파악하는 이원배치법이 적합하다. 다만 성별과 청량음료 유형의 조합을 난선화(randomizing)할 수 없으므로 성별로는 블록화(blocking)하는 것이 현실적이라고 하겠다.

 

(2) <표 1>과 <표 3>에 비추어 이 연구의 귀무가설을 설정하시오. (6점)

문제에서는 총 세 종류의 귀무가설을 수립할 수 있다.

첫 번째 귀무가설 (H0) : 청량음료 종류에 따른 선호도에 차이는 없다

두 번째 귀무가설 (H0) : 성별에 따른 소비자 선호도의 차이는 없다

세 번째 귀무가설 (H0) : 청량음료의 종류와 성별의 상호작용 효과는 없다

(3) 질문 (2)에서 세운 귀무가설을 F검정통계량을 이용하여 유의수준에서 검증하고, <표 2>를 활용하여 검증 결과를 해석하시오. (12점)

귀무가설이 참이라면 위 청량음료 종류, 성별, 청량음료 종류와 성별의 상호작용이 청량음료의 선호도에 미치는 영향은 없고 결과에서 선호도의 차이는 온전히 기대하지 못한 오차의 영향으로 볼 수 있다. 그러므로 귀무가설 하에서는 청량음료 종류 평균제곱합과 오차항의 평균제곱합은 유사한 값을 가질 것이며, 성별 평균제곱합, 상호작용 평균제곱합 역시 귀무가설 하에서는 오차항의 평균제곱합과 유사한 값을 가질 것이다. 우리는 청량음료 종류 평균제곱합을 오차항의 평균제곱합으로 나눈 값이 일정한 기준보다 크다면 청량음료 종류에 따른 선호도에는 차이가 있다고 판단하고 그렇지 않다면 차이가 없는 것으로 판단하는 의사결정규칙을 수립할 수 있다.

분산분석의 가정을 만족할 경우 청량음료의 평균제곱합을 오차항의 평균제곱합으로 나눈 F비는 자유도가 2와 12인 F분포를 따른다. 유의 수준 0.05 하에서 의사결정의 기준이 되는 임계치는 3.89이고 청량음료 F비의 구체적인 값은 21.811이므로 청량음료의 F비 값은 주어진 유의수준 하에서 귀무가설에 대한 강력한 반증이 될 수 있고 청량음료 종류에 따른 선호도의 차이는 있는 것으로 판단할 수 있다.

동일한 방법으로 성별 F비에 대한 5% 유의수준 임계치는 4.75이며, 성별 F비의 실현값은 100.278이므로 F비 값은 귀무가설에 대한 강력한 반증이 된다고 할 수 있고 성별 선호도에는 차이가 있는 것으로 판단할 수 있다.

상호작용에 대한 F임계치 역시 3.89이며 구체적인 F비의 값은 1.344이므로 주어진 상호작용항의 F비 값은 귀무가설에 대한 강력한 반증이 될 수 없으며 성별과 청량음료 종류의 상호작용이 선호도에 미치는 영향은 없는 것으로 판단할 수 있다.

(4) 조사결과를 기초로 출시상품, 목표시장 그리고 적합한 광고매체를 제안하고 그 이유를 설명하시오. (8점)

청량음료의 종류에 따른 선호도에 차이가 있는 것으로 볼 수 있으므로 구체적인 선호관계는 본페로니 검정 등 사후 검정 절차가 필요하겠으나 자료의 결과만을 놓고 보면 청량음료1에 대한 선호도가 가장 높고 특히 여성층에서 상대적으로 선호도가 높은 것으로 나타났으므로 청량음료1을 여성시장을 목표시장으로 해서 출시하는 것이 성공가능성이 가장 높아 보인다. 출시 초기에는 인지도를 높이기 위해 목표시장에 대한 도달률이 높은 매체를 중심으로 광고를 집행하는 것이 효과적이므로 10대 여성층이 주로 보는 TV프로그램이나 유튜브 영상을 중심으로 광고를 집행해야 할 것으로 보인다.

 

【 문제 2 】 어떤 현상을 과학적으로 예측하려면 그 현상을 측정(measurement)하여야 한다. 다음 각 질문에 답하시오. (30점)

☞ 문제 解說 【 문제 2 】역시 큰 어려움 없이 해결할 수 있는 문제입니다. 다만, 양적변수(연속형 자료), 질적변수(범주형 자료)의 구분에 따라 분석방법이 달라진다는 점을 놓치지 말아야 하겠습니다.

(1) 측정의 개념에 관하여 설명하시오. (10점)

우리는 관찰한 사건에 대한 추상적 표현으로서의 개념만으로는 시장조사를 실시할 수 없고 추상적 개념을 측정 가능한 형태로 조작적 정의를 내릴 필요가 있다. 이처럼 경험적으로 측정 가능한 개념을 변수라고 하며 변수에 수치를 부여하는 작업을 측정이라고 한다.

(2) 척도의 개념과 각 유형을 설명하시오. (8점)

척도는 측정 시 수치를 부여하는 규칙을 말한다. 척도에는 명목척도, 서열척도, 등간척도 및 비율척도가 있다.

명목척도는 설문조사 대상을 분류하기 위해 수치를 부여한 척도를 말한다. 예를 들어 남성이며 1, 여성이면 2를 부여한다면 명목척도를 사용한 것이다. 명목척도에서는 사칙연산을 적용할 수 없고 표준적인 측정단위와 절대적인 0이 존재하지 않는다.

서열척도는 설문조사 대상 특성의 순서에 수치를 부여한 척도이다. 명목척도에서 순서에 의미는 없으나 서열척도에서는 순서에 의미가 있다. 다만, 상대적인 순서에 의미가 있을 뿐 서열간 차이의 강도를 나타낼 수는 없다. 서열 척도 역시 사칙연산을 적용할 수 없고 표준적인 측정단위와 절대적인 0이 존재하지 않는다.

등간척도는 설문조사 대상의 특성 크기의 서열뿐만 아니라 대상들 간의 차이까지 알 수 있는 척도이다. 등간척도로 변수를 측정할 경우 설문조사 대상들이 가지는 특성의 상대적 크기를 측정할 수 있으며 서로 비교할 수도 있다. 예를 들어 고객의 전반적 만족도 수준이 ‘매우 불만족’이며 1점, ‘불만족’이면 2점, ‘보통’이면 3점, ‘만족’이면 4점, ‘매우 만족’이면 5점을 부여하는 경우가 등간척도를 적용한 변수에 해당한다. 등간척도는 사칙연산 중 덧셈과 뺄셈을 적용할 수 있고 표준적인 측정단위도 적용 가능하지만 절대적인 ‘0’은 존재하지 않는다.

비율척도는 설문조사 대상이 가지는 특성의 상대적 크기비교 외에 절대적 크기까지 측정할 수 있는 척도를 말한다. 비율척도는 사칙연산을 모두 적용할 수 있으며, 표본적인 측정단위도 적용가능하다. 또한, 절대적인 ‘0’이 존재한다. 예를 들어 특정 휴대폰의 무게가 10kg이라고 한다면 다른 휴대폰 제품과 비교하지 않아도 터무니없이 무겁다는 생각을 해볼 수 있는데 이는 절대적인 ‘0’을 근거로 그 무게를 판단할 수 있기 때문이다.

(3) 변수의 개념과 양적·질적변수에 관하여 설명하시오. (12점)

경험적으로 측정 가능한 개념을 변수라고 한다. 변수는 조사 대상에 따라 다른 값을 가질 수 있다. 예를 들어 표본평균은 표본조사를 반복하면 다른 값을 가질 수 있는 변수이며, 구체적인 표본평균 값과 구분해야 한다.

변수는 사칙연산을 적용할 수 없고 표준측정단위가 없는 질적변수와 사칙연산을 전부 혹은 일부 적용할 수 있으며 표본측정단위가 있는 양적변수로 분류할 수 있다. 명목척도와 서열척도로 측정한 변수가 질적변수에 해당하고 질적변수로 만들어진 자료를 특히 범주형 자료라고 한다. 반면 등간척도와 비율척도로 측정한 변수가 양적변수이며 양절변수로 만들어진 자료를 연속형 자료라고 한다.

양적변수와 질적변수의 구분이 중요한 이유는 양적·질적변수 여부에 따라 분석방법이 달라지기 때문이다. 예를 들어 원인이 되는 독립변수가 질적변수이고 종속변수가 양적변수라면 분산분석을 적용해야 하고 독립변수와 종속변수가 모두 질적변수라면 분할표 검정을 분석방법으로 적용하게 된다.

 

'야행하는 리서치' 카테고리의 다른 글

41. p-value  (0) 2017.09.11
40. 정규분포와 t분포  (0) 2017.09.06
39. 이표본 가설검정 ①  (0) 2017.09.06
38. 가설검정③  (0) 2017.09.04
37. 가설검정②  (0) 2017.08.29
Posted by dooka
,

통계적 가설검정에서는 단일표본에 대한 가설검정보다는 실험집단과 통제집단에 서로 다른 실험처리(treatment)를 적용해서 두 집단의 평균을 비교하는 이표본 가설검정이 일반적입니다. 이표본 가설검정을 적용하기 위해서는 확률추출법을 적용한 n개의 개체에 대해 처음 처리1을 적용할 n1개를 임의추출하고 나머지 n-n1=n2개의 개체들에 대해서는 처리2를 적용합니다. 이와 같이 실험처리를 적용하게 되면 각 개체들의 실험처리에 대한 반응값에는 실험처리에 의한 효과 이외의 다른 요인들의 영향을 평균적으로는 동일하게 제어할 수 있습니다. 예를 들어 제품 패키지 A와 B에 대한 호감도를 알아보기 위한 조사에서 표본추출 후 설문조사 진행 시 패키지 A와 B를 무작위로 노출하게 되면 A를 접한 응답자들과 B를 접한 응답자들은 서로 다른 패키지에 노출되었다는 점 외에 다른 특성들은 평균적으로 동일하다고 볼 수 있습니다.

이제 구체적으로 오픈소스 프로그램 R을 이용한 이표본 가설검정 절차에 대해 알아 보겠습니다. 이표본 가설검정의 데이터 형태는 아래와 같습니다. 파일의 저장형식은 CSV파일로 지정해 줍니다. 데이터에서 package는 제품 패키지 유형을 구분하는 명목형 변수이고 변수x는 각 패키지에 대한 5점 만점 호감도입니다.

이표본 가설검정을 실행하기에 앞서 먼저 두 집단의 분산이 동일한지에 대한 검정을 실시해야 합니다. 왜냐하면 분산이 동일한지 여부에 따라 표본분산의 계산방법이 달라지고 그에 다라 검정통계량과 임계치의 값이 달라지기 때문입니다.

만약 두 집단의 분산이 다르다면 두 집단은 서로 독립이므로 두 집단의 표본평균의 차이에 대한 분산은 각각의 표본분산을 합산하여 구하면 되지만 두 집단의 분산이 동일하다면 pooled variance를 활용하여 표본평균의 차이에 대한 표본분산을 구해야 합니다. 분산이 동일한 경우 표본분산은 pooled variance×(1/n1+1/n2)로 계산하며 pooled variance는 두 집단의 표본분산에 각각의 자유도 즉 각각의 표본크기에서 1을 뺀 수를 곱하여 더한 후 전체 자유도 n1+n2-2로 나누어 줌으로서 구합니다. 전체 자유도를 전체 표본크기에서 1이 아닌 2를 차감해서 구하는 이유는 각각의 표본분산을 구하는데 이미 2만큼의 정보를 사용했기 때문입니다.

 

pooled variance= [(n1-1)+(n2-1)]/(n1+n2-2)

먼저 등분산 가정에 대한 가설검정에 앞서 R의 파일 메뉴에서 작업 디렉토리를 지정해 줍니다. 표본평균에 대한 이표본 가설검정에 앞서 등분산 여부를 검정하는 R의 실행명령어는 다음과 같습니다. 먼저 등분산 가정에 대한 가설검정에 앞서 R의 파일 메뉴에서 작업 디렉토리를 지정해 줍니다. 그리고 해당 디렉토리에 aa라는 이름으로 저장해 둔 CSV파일을 불러 옵니다. 분산의 동일성을 검정하는 명령어는 var.test(실험처리에 대한 반응변수~실험처리 유형을 구분하는 독립변수, data=검정대상파일명)입니다. R에서 등분산 검정을 실행한 결과는 아래와 같습니다.

 

 

먼저 F가 눈에 띄는데 이는 F분포를 따르는 검정통계량을 의미합니다. F분포 역시 t분포와 마찬가지로 정규분포 모집단의 표본분포입니다. 두 집단이 서로 독립이고 정규분포를 따르는 경우 각각의 표본분산에 각 집단의 자유도를 곱하여 모분산으로 나눈 확률변수의 비(比)인 통계량 F는 자유도가 n1-1, n2-1인 F분포를 따르게 됩니다. 제곱합 형태의 통계량이므로 항상 0보다 큰 값을 가지며 오른쪽으로 긴 꼬리를 가지는 기울어진 형태를 가지고 있습니다.

 

 

aa.csv

 

직관적으로 본다면 검정통계량인 F는 두 집단의 분산이 동일하다는 귀무가설 하에서는 1에 가까운 값을 가질 것입니다. 결과에서 p-value 값은 0.61로 유의수준 0.05보다 큰 값을 가지므로 귀무가설을 기각할 수 없고 두 집단의 분산은 동일하다고 볼 수 있습니다.

 

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

                                                     

 

 

 

 

 

Posted by dooka
,

서베이몽키는 차트와 기본적인 교차분석을 지원하는 ‘설문 결과 분석 ’ 기능을 제공하고 있습니다. ‘설문 결과 분석 ’ 메뉴에서는 문항별 차트에서 ‘사용자 정의’를 선택하면 차트에 대한 다양한 설정을 변경할 수 있습니다.

 

 

우선 8가지 차트 유형을 선택할 수 있습니다.

 

표시 옵션을 보면 ① 차트 표시 여부를 선택할 수 있고 ② 차트의 데이터 값 표시 여부도 선택할 수 있습니다. ③ 차트 외에 데이터 표의 표시 여부를 선택할 수도 있습니다. ④ 기본 통계를 선택할 경우 최대값, 최소값, 중앙값, 평균 및 표준 편차를 제공합니다. ⑤ 표본크기가 큰 경우 통계적 유의성까지 살펴볼 수 있습니다.

 

‘데이터 형식’ 중 ‘깊이’에서는 가중평균과 분포 중 선택할 수 있습니다.

 

 

 

‘축 척도’에서는 데이터의 표시 값의 유형으로 ‘절대값’과 ‘비율’ 중 선택할 수 있습니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다!

  

Posted by dooka
,

36. 가설검정 ①

37. 가설검정 ②

지금까지 통계적 가설검정의 원리를 이해했으므로 관련 개념 및 기본원리와 통계적 가설검정의 일반적인 절차를 정리해 보겠습니다.

            

 

 

이제 지지율에 대한 가설검정 사례를 통해 통계적 가설검정 절차를 일별해 보겠습니다. 광역지방자치단체장을 선출하는 선거에 출마한 특정 후보의 선거운동본부에서는 해당후보의 지지율이 20%를 넘어가는지 여부에 따라 홍보전략을 달리 하기로 했고 해당 광역지방자치단체 유권자 전체로부터 확률표본 400명을 추출했다고 가정해보겠습니다. 귀무가설은 지지율 p가 20%보다 작은 것으로, 대립가설은 지지율 p가 20%보다 큰 것으로 설정하고 귀무가설 하에서 지지율의 표본분포를 구해보면 지지율은 근사적으로 평균이 0.2이고 분산이 0.2×(1-0.8)/400=0.0004인 정규분포에 근사합니다.

 

유의수준 5% 하에서 만족하는 c값을 구하고 표본으로부터 구한 지지율이 c값보다 크면 귀무가설을 기각하는 의사결정을 내리면 됩니다. (c-0.2)/=z0.05 = 1.64에서 c값을 구하면 0.233입니다. 만약 표본으로부터 구한 지지율이 23.3%보다 크다면 모집단 지지율 20%이하일 경우 매우 희귀한 사건이라고 할 수 있으므로 귀무가설을 기각할 수 있는 강력한 증거가 됩니다.

이와 같이 부등호가 한쪽 방향으로 설정되어 표본분포의 한쪽 꼬리에 기각역을 정하는 가설검정을 단측검정이라고 합니다. 만약 위 지지율 사례에서 귀무가설을 지지율 20%와 같다라고 설정하면 표본분포의 양쪽 꼬리에 기각역을 정하는 양측검정이 됩니다. 위 지지율 사례에서 지지율은 20%라는 귀무가설에 대해 표본의 지지율이 -c보다 작거나 c보다 크면 귀무가설을 기각한다고 해보겠습니다. 양측검정인 귀무가설 하에서는 아래의 수식이 성립합니다.

여기에서 아래의 등식을 -c와 c에 대해 정리하면 -c=0.161, c=0.239 입니다. 표본의 지지율이 16.1%보다 작거나 23.9%보다 크다면 지지율은 20%라는 귀무가설을 기각할 강력한 증거가 됩니다.

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

                                       

 

 

 

 

Posted by dooka
,

흔히 우리는 데이터를 어떻게 분석할 것인지, 혹은 어떻게 보여줄 것인지에만 손쉽게 관심을 가집니다. 그러나 그것들만큼 중요한 일이 데이터를 수집하는 과정의 품질을 어떻게 관리할 것인가 입니다.

오늘은 일대일 면접 조사나 전화조사에서 면접원을 어떻게 선발하고 관리하는지에 대해 알아보고자 합니다. 사실 설문조사업에 종사하는 사람이 아니라면 별로 관심이 없을 수도 있지만 면접원의 선발과 관리는 설문조사의 품질을 결정하는 매우 중요한 일입니다. 아주 가끔 면접원은 아무나 할 수 있는 일이고 면접원 인건비는 낮으면 낮을수록 좋다고 생각하거나 조사의 품질을 높이면서 비용은 삭감만 하려는 분들을 보게 됩니다. 그러나 개별 면접원에 따라서 응답자 입장에서 얼마나 다른 경험일 수 있는지 한번이라도 피부로 느껴본 사람이라면 설문조사를 위한 면접원의 선발과 관리에 매우 신경을 쓰지 않을 수 없습니다.

설문조사 실무에서는 대체로 다음과 같은 과정을 통해 면접원을 선발하고 관리합니다. 설문 진행 상황 점검과 함께 중요하게 관리해야 할 점은 면접원별로 조사결과에 차이가 있는지 입니다. 특정 면접원의 결과가 다른 면접원의 결과가 차이가 크고 이에 대한 합리적인 이유가 없다면 해당 면접원은 불완전한 면접을 진행했을 가능성이 높고 해당 면접원이 진행한 설문지는 철저하게 점검해야 합니다.

 

면접원을 동원한 설문조사에 대해 어떤 면에서는 상당히 회의적인 생각을 가지고 있기는 하지만 면접원을 동원한 설문조사를 진행하기로 했다면 철두철미하게 품질관리를 해야 하는 것은 당연합니다. 면접원을 동원한 설문조사를 진행하다 보면 조사방법론에 대한 전문적인 교육을 받았을 것 같지 않은 면접원 분이 경험을 통해 설문조사의 과정을 잘 이해하고 있는 모습을 만나게 되는 경우가 있습니다. 그럴 경우에는 생활의 달인을 만난 것처럼 즐거움과 존경심이 일어나게 됩니다.

 

데이터테일즈에 설문조사를 의뢰하시려면 아래 버튼을 눌러주세요. 일반 문의도 환영합니다.

Posted by dooka
,

대학 교육 만족도 조사나 공공기관의 고객 및 직원 만족도 조사를 수행하다 보면 이 설문지는 이런 점이 문제가 좀 있는 것 같다는 생각이 들 때가 있습니다. 그런 사례를 원문을 조금 변경해 열거해 보았습니다.

 

사례에서와 같이 설문조사의 외양을 갖추고 있으나 응답자의 의견을 공정하게 질문하는 것이 아니라 응답자에게 어떤 편향성을 유도하는 내용이라면 설문조사 결과는 의사결정의 품질을 개선하는데 기여할 수 없습니다.

일반적으로 대학이나 공공기관의 고객 만족도 조사는 연간 1회 내지 2회 정도 실시하게 되는데 대체로 해당 기관의 모든 시설 및 서비스 내용을 포괄하다 보니 설문지의 분량이 조사 대상자의 인내심을 넘어서는 경우도 가끔 발생하게 됩니다. 지나치게 긴 설문지는 straight liner나 speeder와 같은 불성실응답을 양산합니다.

그러므로 어느 정도 조사결과를 축적했다면 요인분석을 통해 조작적 정의에 부합하지 않는 문항은 선별한 후 전반적 만족도에 미치는 영향과 관리 상의 중요성을 고려하여 삭제 여부를 고려해야 할 것입니다.

문항에 대한 통계적 분석 결과에도 불구하고 관리상의 중요성 등을 고려할 때 설문의 수정이 어렵다면 로테이션, 설문지 책형 구분 등 설문지의 구성을 최대한 개선하여 응답자의 불성실 응답이 설문 조사 결과에 미치는 영향을 평균적으로 제어하는 것이 좋습니다.

 

데이터테일즈에 설문조사를 의뢰하시려면 아래 버튼을 눌러주세요. 일반 문의도 환영합니다.

Posted by dooka
,

 

 

36. 가설검정 ①

 

 

지난 포스팅에 이어 가설검정의 기본원리에 대해 알아보겠습니다. 언제나 늑대가 나타났다고 거짓말하는 양치기 소년의 우화를 생각해 보면 실제로 늑대가 나타났는지 여부와 양치기 소년이 늑대가 나타났다고 말하는지 여부에 따라 네 가지 경우가 존재합니다. 이 중 귀무가설이 참임에도 불구하고 귀무가설을 기각할 가능성을 제1종 오류라고 하고 대립가설이 참임에도 불구하고 귀무가설을 채택할 가능성을 제2종 오류라고 합니다. 대립가설이 참일 때 대립가설을 채택할 가능성을 특히 검정력(power)라고 합니다.

 

                          

 

귀무가설이 참이라는 가정 하에서 확률표본을 이용하여 구한 모수에 대한 추정량을 검정통계량이라고 합니다. 이 검정통계량의 값을 가설채택 여부의 기준이 되는 임계치와 비교하여 가설 채택 여부를 결정하게 됩니다. 만약 양치기 소년이 검정통계량이라면 매우 나쁜 검정 통계량임을 알 수 있습니다. 언제나 늑대가 나타났다고 말하므로 제2종 오류의 가능성은 0이 되고 검정력은 극대화되지만 제1종 오류의 가능성 역시 극대화됩니다.

통계적 가설 검정에서 대립가설이 참일 경우 귀무가설을 기각할 확률 즉 검정력을 아래 그림과 같이 I+II에서 I+II+III+IV로 높이기 위해 가설 채택 여부의 기준이 되는 임계치를 C1에서 C2로 변경한다면, 잘못해서 귀무가설을 기각할 확률 즉 제1종 오류를 범할 확률 역시 II에서 II+IV로 증가함을 알 수 있습니다. 표본크기가 주어진 경우 제1종 오류를 범할 확률과 제2종 오류를 범할 확률을 동시에 감소시킬 수는 없음을 알 수 있습니다. 그러므로 오류 발생 시 발생할 위험이 중요한 유형의 오류를 최대 허용 수준을 지정한 후 나머지 오류를 극소화하는 방식으로 의사결정규칙을 정하는 것이 위험 회피 관점에서 합리적입니다.

현재 상황을 유지하는 경우보다는 현재 상황을 변경하는 경우의 위험이 더 큰 것이 일반적이기 때문에, 잘못해서 현재의 상황을 지지하는 귀무가설을 기각하는 제1종 오류가 제2종 오류보다는 더 중요한 오류라고 볼 수 있습니다. 그렇다면 제1종 오류를 범할 확률의 최대 허용 상한인 유의수준을 정한 후에 그 범위 내에서 잘못해서 귀무가설을 기각하지 못하는 제2종 오류를 극소화하는, 즉 실제 귀무가설이 틀렸을 때 귀무가설을 기각하는 검정력(power)을 극대화하는 의사결정규칙을 찾아야 합니다.

가상의 시장에서 신제품 컨셉트의 10점 만점 호감도가 7점보다 큰 값을 가지는지가 관심인 사례에서 호감도가 7보다 작거나 같다는 귀무가설 하에서는 고려해야할 표본평균값은 무수히 많습니다. 그러나 일단 가설 채택 여부의 기준이 되는 임계치를 설정하고 보면 평균 호감도가 7일 때 잘못해서 귀무가설을 기각할 제1종 오류를 범할 확률이 최대가 되므로 우리는 평균 호감도가 7인 경우의 표본분포만을 고려하면 됩니다. 그림에서 임계치를 c1으로 설정했을 때 평균이 7인 경우의 제1종 오류를 범할 확률(영역 II)과 평균이 7보다 작은 경우의 제1종 오류를 범할 확률을 비교해보면 전자가 후자보다 더 큰 값을 가짐을 시각적으로 확인할 수 있습니다.

우리는 제품 컨셉트의 호감도가 7보다 큰 값인지 여부가 관심인 사례에서 가능한 귀무가설 하의 표본분포 중에서 평균이 7인 경우의 표본분포에서 제1종류를 범할 확률이 최대가 됨을 확인했습니다. 잘못해서 귀무가설을 기각할 오류인 제1종 오류를 범할 확률의 상한인 유의수준은 가능한 귀무가설 하의 여러 표본평균 중 경계에 있는 값, 사례에서는 평균 호감도 7을 기준으로 지정하면 되는 것입니다. 만약 유의수준을 위 그림의 영역II의 면적이 되도록 정했다면 이에 대응하는 검정통계량 값 c1보다 같거나 큰 값 중에서 검정력이 가장 큰 값을 임계치로 설정하면 가설검정을 위한 의사결정규칙을 완성하게 됩니다. 변수값 c1에 대응하는 검정력은 영역 I+II의 면적이 되고 이 면적이 대립가설 하에서는 c1보다 큰 어떤 값의 검정력보다 크다는 사실을 확인할 수 있습니다. 귀무가설 하에서의 제1종 오류를 범할 확률의 상한인 유의수준을 정하고 유의수준에 대응하는 변수 값을 구하면 대립가설 하에서 그 값에 대응하는 검정력이 가장 커지므로 귀무가설 하에서 유의수준에 대응하는 변수 값을 가설채택 여부의 기준이 되는 임계치로 설정하면 됩니다. 즉, 귀무가설이 참일 때의 검정통계량 표본분포의 꼬리 부분에 유의수준 크기에 대응하는 기각역을 설정하면 잘못해서 귀무가설을 채택할 제2종 오류를 최소화할 수 있습니다. 여기서 기각역이란 임계치 이상의 값을 가지는 검정통계량의 부분집합을 말하며 검정통계량의 값이 이 영역에 속하면 귀무가설을 기각합니다. 통계적 가설검정에서 제1종 오류를 범할 확률의 상한인 유의수준의 의미는 가설검정을 반복할 때 잘못하여 귀무가설을 기각할 확률이 유의수준 이하라는 의미를 담고 있습니다.

 

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

'야행하는 리서치' 카테고리의 다른 글

39. 이표본 가설검정 ①  (0) 2017.09.06
38. 가설검정③  (0) 2017.09.04
36. 가설검정①  (0) 2017.08.18
35. 통계적 추정의 기본원리②  (0) 2017.08.02
34. 통계적 추정의 기본원리①  (0) 2017.07.26
Posted by dooka
,

서베이몽키는 설문조사를 시작하면 실시간으로 데이터를 시각화할 수 있는 분석 기능을 제공하고 있습니다.

 

서베이몽키가 지원하는 차트는 총 8 가지이며 다양한 옵션을 지정할 수 있습니다. 다음 포스팅부터는 서베이몽키 결과 분석의 옵션과 지원 기능에 대해 상세하게 알아보겠습니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다!

Posted by dooka
,

 

오늘 덕성여자대학교 평생교육원 스마트 창작터에서 주관하는 린스타트업 과정 중 '고객검증을 위한 설문지 작성법과 활용법' 교육을 얼떨결에 진행하고 왔습니다. 교육을 시작할 때 제가 조금 심하게 재미없다는 말씀을 드렸는데 처음에는 믿지 않으시던 분들이 교육이 진행될수록 점점 믿음이 깊어지시는 모습을 보게 되어 미묘하게 기쁜 마음이 들었습니다.

언제나처럼 우리는 시장을 통해 소비자와 생산이 분리된 세계에 살고 있으며, 제품의 특성이 소비자의 입장에서 어떤 편익과 연결되는지에 대한 선험적인 지식은 존재하지 않는다는 점을 강조했습니다. 일종의 완곡한 영업이었으나 교육에 참석하신 분들이 눈치채신 것 같지는 않습니다.

시장조사에 대해 본격적인 지식이 아직은 충분하지 않은 분들은 어떻게 하면 설문지를 구성하고 어떻게 분석할지에 대해 궁금해 하시는 경우가 많습니다. 그러나 전문적으로 설문조사를 비즈니스로 삼을 것이 아니라면 시장조사 프로젝트를 관리할 수 있을 정도의 지식이면 충분하고 보다 더 중요한 것은 시장조사를 시작하기에 앞서 정리되어야 할 소비자와 제품에 대한 지식과 경험입니다. 우리는 설문지를 통해 언어로 질문하든 아니면 뇌파를 스캔하든 어떤 방법을 이용하더라도 우리의 마음을 직접 관찰할 수는 없습니다. 우리가 우리의 마음에 대해 가지는 이런 저런 주장이나 가설은 결국 우리의 마음을 엿보는 수단에 의존합니다.

설문지를 이용한 시장조사에서 소비자에 대한 지식은 설문지라는 수단을 통해서만 전달될 수 밖에 없으므로 시장조사의 품질은 설문지에 의존합니다. 설문지의 품질은 설문지를 작성하는 조사기획자의 역량과 함께 시장조사를 진행하는 마케터의 통찰력에 의존합니다. 시시콜콜한 기술을 정확하는 것도 중요하지만 그 기술로 무엇을 할 것인가가에 대한 진지한 성찰이 더더더 중요합니다. 그러니 마케터 분들은 소비자에 대한 통찰력을 갖는데 집중하시고 시장조사와 데이터분석은 데이터테일즈에 맡게 주신다면 좋을 것 같습니다.

 

데이터테일즈에 설문조사를 의뢰하시려면 아래 버튼을 눌러주세요. 일반 문의도 환영합니다.

 

 

Posted by dooka
,

신뢰구간을 이용한 추정의 의미를 이해했으므로 본격적인 통계적 의사결정이라고 할 수 있는 검정 과정에 대해 알아보겠습니다. 표본으로부터 얻은 정보를 이용해 미지의 모수에 대한 주장의 옳고 그름을 판단하는 가설검정 과정 역시 모집단 정보의 일부만을 활용하는 표본조사라는 개념과 밀접한 관련이 있습니다. 

 다음 사례를 통해 표본조사를 이용한 가설 검정의 기본원리에 대해 살펴보겠습니다.  가상의 시장에서, 어떤 기업이 지금까지의 경험을 통해 제품 컨셉트에 대한 호감도가 10점 만점 기준 7점 이상이면 해당 컨셉트의 제품을 출시할 경우 성공할 가능성이 매우 높고, 가상의 시장에 속하는 소비자 집단 전체의 호감도 모분산 σ2은 반복되는 선행조사를 통해 대략 4 정도 된다는 점을 알고 있다고 해보겠습니다. 이 제품의 마케팅 담당자는 독립적으로 동일한 분포를 따르는 확률표본 100명을 추출해서 표본의 제품 컨셉트에 대한 평균 호감도 값이 7보다 크면 해당 컨셉트의 신제품 개발에 착수하고 그렇지 않으면 기존 제품의 마케팅 활동을 강화하기로 결심했습니다. 
 확률표본 100명을 기준으로 모평균이 7일 때 확률  서 가능한 표본평균의 범위를 추정해보면, 표본추출을 반복할 경우 표본평균이 7+Z0.05×(2/10)=7+1.64×(2/10)=7+0.328≑7.33 범위 내에 있을 확률이 95%임을 알 수 있습니다. 만약 표본평균의 값이 7.5점이라면 신뢰수준 95% 하에서는 일어날 확률이 희박한 사건이 발생했다고 볼 수 있고, 모평균이 7점보다 클 가능성이 높다고 보아 신제품 개발에 착수하는 것이 합리적입니다. 그러나 표본평균값이 7.1점이라면 모평균이 7점인 경우에도 충분히 발생 가능한 사건이기 때문에 신제품 개발을 다시 한 번 생각해보야 할 것입니다.

 여기에서 제품 컨셉트에 대한 호감도가 7보다 크다는 주장을 기존 상태에 대립하는 주장이라는 뜻에서 대립가설이라고 하고 제품 컨셉트에 대한 호감도가 7보다 작거나 같다는 주장과 같이 강력한 증거를 통해 가설검정의 직접적 대상이 되는 가설을 귀무가설이라고 합니다. 대범하게 말하면 일반적으로 현재 상태를 옹호하는 주장, 혹은 현재의 상태에서 별도의 조치가 필요없은 주장이 귀무가설이 되는 경우가 많습니다.

그런데 통계적 추정 과정에서는 주어진 표본을 근거로 가장 그럴듯한-발생가능성이 높은 모수의 범위를 추론하므로 비록 모수가 미지이지만 그 미지의 모수에 대한 단 하나의 확률분포만을 생각하면 되지만 가설 검정에서는 가능한 모수의 범위가 거의 무한대에 가깝기 때문에 고려해야할 확률분포 역시 무한대에 가깝습니다. 그러므로 이러한 난점을 고려해 주어진 표본의 정보를 바탕으로 최대한 합리적인 의사결정 준칙을 마련할 필요가 있습니다. 이를 위해서는 제1종 오류(type I error)와 제2종 오류(type II error)에 대해 알아보아야 합니다. 다음 시간에는 제1종 오류와 제2종 오류를 출발점으로 가설 검정에 대해 좀 더 자세하게 알아보겠습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다! 

                                    

 

 

 


 


 


 

 

'야행하는 리서치' 카테고리의 다른 글

38. 가설검정③  (0) 2017.09.04
37. 가설검정②  (0) 2017.08.29
35. 통계적 추정의 기본원리②  (0) 2017.08.02
34. 통계적 추정의 기본원리①  (0) 2017.07.26
33. 설문지의 순서배열  (2) 2017.07.20
Posted by dooka
,