신뢰구간을 이용한 추정의 의미를 이해했으므로 본격적인 통계적 의사결정이라고 할 수 있는 검정 과정에 대해 알아보겠습니다. 표본으로부터 얻은 정보를 이용해 미지의 모수에 대한 주장의 옳고 그름을 판단하는 가설검정 과정 역시 모집단 정보의 일부만을 활용하는 표본조사라는 개념과 밀접한 관련이 있습니다. 

 다음 사례를 통해 표본조사를 이용한 가설 검정의 기본원리에 대해 살펴보겠습니다.  가상의 시장에서, 어떤 기업이 지금까지의 경험을 통해 제품 컨셉트에 대한 호감도가 10점 만점 기준 7점 이상이면 해당 컨셉트의 제품을 출시할 경우 성공할 가능성이 매우 높고, 가상의 시장에 속하는 소비자 집단 전체의 호감도 모분산 σ2은 반복되는 선행조사를 통해 대략 4 정도 된다는 점을 알고 있다고 해보겠습니다. 이 제품의 마케팅 담당자는 독립적으로 동일한 분포를 따르는 확률표본 100명을 추출해서 표본의 제품 컨셉트에 대한 평균 호감도 값이 7보다 크면 해당 컨셉트의 신제품 개발에 착수하고 그렇지 않으면 기존 제품의 마케팅 활동을 강화하기로 결심했습니다. 
 확률표본 100명을 기준으로 모평균이 7일 때 확률  서 가능한 표본평균의 범위를 추정해보면, 표본추출을 반복할 경우 표본평균이 7+Z0.05×(2/10)=7+1.64×(2/10)=7+0.328≑7.33 범위 내에 있을 확률이 95%임을 알 수 있습니다. 만약 표본평균의 값이 7.5점이라면 신뢰수준 95% 하에서는 일어날 확률이 희박한 사건이 발생했다고 볼 수 있고, 모평균이 7점보다 클 가능성이 높다고 보아 신제품 개발에 착수하는 것이 합리적입니다. 그러나 표본평균값이 7.1점이라면 모평균이 7점인 경우에도 충분히 발생 가능한 사건이기 때문에 신제품 개발을 다시 한 번 생각해보야 할 것입니다.

 여기에서 제품 컨셉트에 대한 호감도가 7보다 크다는 주장을 기존 상태에 대립하는 주장이라는 뜻에서 대립가설이라고 하고 제품 컨셉트에 대한 호감도가 7보다 작거나 같다는 주장과 같이 강력한 증거를 통해 가설검정의 직접적 대상이 되는 가설을 귀무가설이라고 합니다. 대범하게 말하면 일반적으로 현재 상태를 옹호하는 주장, 혹은 현재의 상태에서 별도의 조치가 필요없은 주장이 귀무가설이 되는 경우가 많습니다.

그런데 통계적 추정 과정에서는 주어진 표본을 근거로 가장 그럴듯한-발생가능성이 높은 모수의 범위를 추론하므로 비록 모수가 미지이지만 그 미지의 모수에 대한 단 하나의 확률분포만을 생각하면 되지만 가설 검정에서는 가능한 모수의 범위가 거의 무한대에 가깝기 때문에 고려해야할 확률분포 역시 무한대에 가깝습니다. 그러므로 이러한 난점을 고려해 주어진 표본의 정보를 바탕으로 최대한 합리적인 의사결정 준칙을 마련할 필요가 있습니다. 이를 위해서는 제1종 오류(type I error)와 제2종 오류(type II error)에 대해 알아보아야 합니다. 다음 시간에는 제1종 오류와 제2종 오류를 출발점으로 가설 검정에 대해 좀 더 자세하게 알아보겠습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다! 

                                    

 

 

 


 


 


 

 

'야행하는 리서치' 카테고리의 다른 글

38. 가설검정③  (0) 2017.09.04
37. 가설검정②  (0) 2017.08.29
35. 통계적 추정의 기본원리②  (0) 2017.08.02
34. 통계적 추정의 기본원리①  (0) 2017.07.26
33. 설문지의 순서배열  (0) 2017.07.20
Posted by dooka
,

 

34. 통계적 추정의 기본원리

통계적 추정에 대해 좀 더 자세히 알아보기 전에 우선 관련 개념을 아래와 같이 정리해 보았습니다.

         

 

관련 개념에 대한 이해를 바탕으로, 표본크기 결정을 위해 알아보았던 신뢰수준을 다시 한번 살펴보겠습니다. 표본크기 n인 표본이 평균이 이고 분산이 σ2인 모집단으로부터 얻어진 확률표본이고 표본크기가 충분히 크다면 중심극한정리를 적용할 수 있고 근사적으로 표본평균 는 평균이 이고 표본평균의 분산이 σ2/n인 정규분포를 따르게 됩니다. 정규분포의 성질에 따라 근사적으로 Z는 평균이 0이고 분산이 1인 표준정규분포를 따릅니다. 아래 수식에서 A는 asymptotic의 약자로 근사한다는 의미이고 N은 정규분포를 의미합니다.

일반적으로 모집단의 평균을 모르는 상황이라면 모분산 역시 알 수 없다고 보는 것이 상식적이므로 모분산 대신 표본분산을 사용하게 됩니다. 표본분산 s2을 사용하는 이유는 s2의 평균이 모분산이 되고 표본크기가 증가할수록 모분산에 근사하기 때문입니다. 표본분산의 분모가 표본크기가 아닌 표본크기에서 1을 차감한 수를 사용하는 이유는 표본평균을 구하는데 표본의 정보를 한번 사용하였기 때문입니다. 표본평균이 정해진 상태에서는 n-1번째 개체의 응답이 결정되면 n번째 개체의 응답은 자동으로 결정됩니다.

모분산이 아닌 표본분산을 사용한 경우에도 독립적이고 동일한 분포를 따르는 확률표본에서 표본크기가 증가할 때 Z는 여전히 근사적으로 평균이 0이고 분산이 1인 표준정규분포를 따릅니다.

                                                         

                                                         

신뢰수준의 정의에 따라 P( -Z0.025 ≦ Z ≦ Z0.025 )=P( -1.96 ≦ Z ≦ 1.96 )=0.95가 성립하고, 확률을 나타내는 함수 P(  ) 괄호안의 식을 모평균에 대하여 정리하면 아래와 같은 수식을 얻게 되고 이를 모평균 의 95% 신뢰구간이라고 합니다.

                                        

모평균 μ의 95% 신뢰구간 : 

                                           

관심 있는 모수의 참값이 포함하고 있을 것으로 예상하는 구간을 신뢰구간이라고 하며, 신뢰구간이 관심 있는 모수의 참값을 포함할 것으로 신뢰하는 확률을 신뢰수준이라고 부르게 됩니다. 오차한계를 폭넓게 허용하면 신뢰수준이 증가하는 것처럼 신뢰구간의 폭을 넓히면 신뢰수준 역시 높아지게 됩니다. 신뢰수준을 100%라고 한다면 -무한대에서 +무한대까지의 값이 신뢰구간이 되므로 유의미한 정보를 제공할 수 없기 때문에 수용할 만한 신뢰수준을 정한 후에 신뢰구간을 추정하게 됩니다.

수리적으로 평균과 동일한 개념인 모비율의 추정에 대해서도 알아보겠습니다. 표본크기가 크고 모비율이 작지 않은 경우 확률표본을 추출하면 중심극한정리에 의해 표본비율더블클릭을 하시면 수식을 수정할 수 있습니다.은 정규분포에 근사합니다. 신뢰수준 95% 하에서 가상의 도시의 시장 출마 후보의 지지율을 추정하기 위해 표본크기 n의 확률표본을 추출한 경우를 생각해 보겠습니다. 후보를 지지하는 응답자의 수를 합한 변수를 X로 정의할 때 =X/n은 표본평균이며 곧 표본비율 즉 표본의 지지율이 됨을 알 수 있습니다. 동일하고 독립적인 분포를 따르는 표본에서 표본수가 충분히 크고 지지율이 0과 1에 가까운 극단적인 값을 가지지 않는다면 표본비율은 평균이 p이고 분산은 p(1-p)/n인 정규분포에 근사합니다. 그런데 p(1-p)/n은 사전적으로 알 수 없으므로 표본비율을 사용한 추정량을 사용하면, 표본크기가 증가할 때 표본비율의 분포는 여전히 정규분포에 근사하게 됩니다.

모비율 즉 모집단의 지지율은 사전적으로 알 수 없으므로 모비율 대신 표본비율을 그 추정치로 사용하더라도 표본크기가 증가하면 표본비율은 모비율에 근사하므로 여전히 표본비율은 근사적으로 평균이 모비율 p이고 분산은 표본비율(1-표본비율)/n인 정균분포를 따릅니다.

                                                                  

이를 근거로 신뢰수준을 계산하고 이 계산식에서 95% 신뢰구간을 구하면 다음과 같습니다.  

모비율의 95% 신뢰구간 :

                                               

모평균에 대한 구간추정을 예로 들어 신뢰구간의 의미를 좀 더 명확하게 파악해 보겠습니다. 모평균에 대한 95% 신뢰구간이라고 하면, 표본추출을 100번 반복할 경우 100개의 신뢰구간 중 모평균 참값을 포함하는 구간이 최소한 95개는 된다는 의미입니다. 이것은 사실을 표본추출을 100번 반복할 때 표본평균과 모집단의 차이가 (1.96⨯표준오차) 이내인 경우가 적어도 95번은 된다는 언급과 완전히 동일합니다. 여기서 표준오차란 표본평균의 분산을 제곱근한 값을 말합니다. 그러므로 95% 신뢰구간에서 신뢰수준 95%는 그 특정한 구간이 미지의 모평균을 포함할 확률이 95%라는 의미가 아닙니다.

         

이러한 신뢰구간의 의미는 설문조사 결과를 소비하는 사람의 입장에서 조금은 기대했던 내용과 거리가 멀 수도 있습니다. 그러나 모집단의 일부인 표본을 반복적으로 추출하는 설문조사과정을 이해한다면 신뢰구간이 의미하는 내용은 필연적입니다. 좋은 신뢰구간이라면 가급적 구간의 길이가 짧고, 신뢰수준이 높은 신뢰구간이 될 것이나 주어진 표본크기 하에서는 신뢰수준을 높이고자 한다면 신뢰구간의 길이가 넓어져야 하며, 신뢰구간의 길이를 줄이고자 한다면 신뢰수준이 낮아질 수밖에 없습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 데이터테일즈가 성실하게 답변 드리겠습니다!

                                               

 

 

'야행하는 리서치' 카테고리의 다른 글

37. 가설검정②  (0) 2017.08.29
36. 가설검정①  (0) 2017.08.18
34. 통계적 추정의 기본원리①  (0) 2017.07.26
33. 설문지의 순서배열  (0) 2017.07.20
32. 설문지 작성 방법  (0) 2017.07.17
Posted by dooka
,

통계적 의사결정 과정에는 모집단에 대한 정보가 없는 상태에서 표본으로부터 얻은 정보를 이용해 모집단의 특징을 나타내는 대표값인 미지의 모수를 예측하는 추정 과정과 표본으로부터 얻은 정보를 이용해 미지의 모수에 대한 주장의 옳고 그름을 판단하는 가설검정 과정으로 구분해 볼 수 있습니다. 가설검정을 위해서는 먼저 모수를 예측하는 추정 과정이 필요하므로 먼저 통계적 추정과정에 대해 알아보겠습니다.

추정 과정에 대한 이해를 돕기 위해 총 5개의 개체로 이루어진 모집단을 생각해 보겠습니다. 모집단은 특정 제품군의 소비자 전체이고 각각의 호감도 값은 신규 출시 제품에 대한 7점 척도 응답이라고 해 보겠습니다. 우리는 표본을 추출해서 조사해보기 전까지는 모집단에 속하는 개체의 호감도를 알 수 없고 모집단의 평균도 알지 못합니다.

이제 동일한 확률로 복원추출을 통해 아이디 3번, 4번, 5번을 표본으로 얻었다면 표본평균 값은 (4+6+6)/3=5.3이 됩니다. 우리가 알고 있는 정보는 표본을 통해 얻은 표본평균 값이 전부이므로 표본평균 값을 모집단 평균으로 추정할 수밖에 없습니다. 이렇게 하나의 값으로 모수를 추측하는 것을 점추정이라고 합니다. 그런데 하나의 값으로 모수를 추론하는 점추정은 근본적인 문제가 있습니다. 모집단 정보의 일부인 표본의 정보를 이용해 추론하므로 표본으로 얻은 값이 관심 있는 모수와 정확히 일치할 가능성은 매우 낮다는 것이 그것입니다.  

 

                     

 

위 모집단을 근거로 가능한 표본평균의 분포(표본분포)를 구해보면 표본평균 값은 가능한 여러 가지 가능성 중 하나에 불과함을 알 수 있습니다. 우리는 표본평균의 평균이 모평균이라는 사실과 표본평균이 모평균을 중심으로 일정한 분포를 따른다는 사실은 알고 있지만 구체적인 모평균의 값은 알 수 없습니다. 구체적인 표본평균 값은 모평균과는 상당한 차이가 있을 가능성도 있습니다.

아래 예시 표본분포를 살펴보면 직관적으로 보더라도 모평균 5와는 다소 차이가 있어 보이는 표본평균 4, 4.3, 5.7, 6 중 하나의 표본이 추출될 확률이 32%에 육박하여 모평균에 대한 추론이 잘못될 가능성이 상당함을 알 수 있습니다. 그러므로 모집단 정보를 일부만 이용하는 표본조사 과정에 비추어 볼 때 일의적인 하나의 표본평균 값으로 모평균을 추론한다는 것은 매우 불합리한 방법일 수 있습니다.

우리는 표본추출을 반복할 경우 그 결과가 얼마나 신뢰할 수 있는지를 나타내는 신뢰수준과 표본추출을 반복함에 따라 모집단의 특성치(모평균)를 표본통계량(표본평균)이 얼마나 오차 없이 반영하는지를 나타내는 오차한계가 주어질 때, 최소 표본크기를 산정하는 방법에 대해 알아보았습니다. 다음 시간에 주어진 신뢰수준 하에서 우리가 관심 있는 모집단의 특성치(모평균)를 어떻게 추정할 것인지 좀 더 구체적으로 알아보겠습니다.

매우 낮다는 점이 그것입니다

31. 표본크기의 결정

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다!

                                            

 

 

'야행하는 리서치' 카테고리의 다른 글

36. 가설검정①  (0) 2017.08.18
35. 통계적 추정의 기본원리②  (0) 2017.08.02
33. 설문지의 순서배열  (0) 2017.07.20
32. 설문지 작성 방법  (0) 2017.07.17
31. 표본크기의 결정  (0) 2017.05.11
Posted by dooka
,

사람들은 아래와 같은 단순한 도형들의 움직임에서도 본능적으로 어떤 의미를 부여해 이야기를 구성하는 경향이 있습니다. 그러므로 별 의미 없는 설문지의 순서에도 자기 나름대로 의미를 부여하고 그러한 개인적 해석에 근거에 질문에 답변하게 됩니다. 그 결과 묻고자 하는 내용이 아니라 설문지라는 형식이 응답자의 답변에 영향을 줄 수도 있습니다.

 

                  

https://youtu.be/VTNmLt7QX8E

그러므로 설문지의 순서 역시 응답자의 답변을 왜곡하지 않도록 세심하게 고민하여 배열해야 합니다. 첫 번째 질문은 비교적 재미있고 답변하기 용이한 것을 배치하여 응답자의 긴장을 풀어주고 흥미를 유발하는 것이 좋습니다. 경험적으로 보면 인터넷 설문조사는 10% 내외, 오프라이에서의 자기기입식 조사는 30% 내외의 불성실 응답이 발생하는데, 재미있는 점은 처음부터 제대로 응답한 사람은 끝까지 성실하게 답변할 가능성이 높은 반면, 불성실한 답변을 한 사람은 처음부터 불성실하게 답변한다는 점입니다. 즉 설문지가 지나치게 길지 않다면 설문지 작성 중간에 갑자기 설문 작성 태도가 불성실하게 변하는 경우는 드물다는 것입니다. 그러므로 처음부터 응답자가 성실하게 답변할 수 있도록 쉽고 재미있는 질문을 가급적 전면에 배치해야 합니다. 

 또한, 응답자의 개인 신상에 대한 질문은 가급적 응답자의 심리적 저항이 많이 완화된 설문의 후반부에 배치해야 성실한 답변을 기대할 수 있습니다. 설문지가 길다면 중요도가 높은 질문을 앞쪽으로 배치해야 합니다. 인터넷 설문조사에서는 대체로 10분이 경과하면 질문 수가 증가하더라도 설문작성 시간이 더 이상 늘어나지 않는 경향을 보이므로 처음부터 꼭 필요한 질문 위주로 설문지를 작성하고 불가피하게 설문의 분량을 늘려야 하는 경우에는 가급적 중요한 문항을 앞쪽에 배치해서 분석에 꼭 필요한 데이터의 품질을 확보하는 것이 좋습니다.

 그리고 응답자의 자연스러운 사고에 부합할 수 있도록 넓은 개념에서 구체적인 개념으로 순차적으로 질문하고 질문 항목 간의 논리적 선후 관계를 고려해 설문의 순서를 배열해야 합니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다!

                                          

 

 

 

'야행하는 리서치' 카테고리의 다른 글

35. 통계적 추정의 기본원리②  (0) 2017.08.02
34. 통계적 추정의 기본원리①  (0) 2017.07.26
32. 설문지 작성 방법  (0) 2017.07.17
31. 표본크기의 결정  (0) 2017.05.11
30. 표본오차의 이해  (0) 2017.05.08
Posted by dooka
,

현업에 종사하고 있으면 최근 빅데이터 분석에 대한 관심이 높아지면서 설문조사의 필요성이 감소하고 있다는 느낌을 받게 됩니다. 그러나 빅데이터 분석이 기존의 설문조사를 완전히 대체할 것이라고는 생각하기는 어렵습니다. 왜냐하면 일반적으로 기업이 직면하는 데이터는 사실 ‘빅’하지 않기 때문입니다. 데이터의 용량 측면에서도 기존 기기의 처리 능력을 뛰어넘는 데이터의 축적이란 사실 일반적인 조직에서 쉽지 않을 것이라고 생각하고 다양한 사례의 축적을 통한 기계학습의 기회 역시 많지 않을 것으로 보입니다.

분명히 현재의 기술적인 변화는 기존의 관성을 뛰어넘는 것이지만 또한 현재까지 축적한 지식의 자장 내에 있는 것도 사실입니다. 고대의 거인 위에 올라선 중세라는 소인이 르네상스를 조망했듯 우리에게는 지금까지의 지식이라는 성과 위에 기술발전이라는 작지만 중요한 진보를 올려놓는 균형이 필요합니다.

인간이 언어로 소통하는 한 설문지를 이용한 조사는 여전히 효율적인 자료 수집 방법 중 하나로 남을 것입니다. 어떻게 하면 묻고자 하는 질문의 내용 외에 다른 요소에 응답자가 영향 받지 않도록 설문지를 잘 작성할 것인가라는 고민은 반대로 어떻게 정보의 수용자들을 선전·선동(?)할 것인가에 대한 나름대로의 시사점을 얻는 부수적인 효과가 있기도 합니다. 아마 광고에 관심 있는 분들은 한번쯤 들어 보셨을 오길비가 시장 조사원으로 일한 적이 있다는 사실은 어쩌면 우연이 아닐지도 모릅니다.

자료수집방법에 따라 구성과 분량에 다소 차이가 있지만 기본적으로 설문지는 다음과 같은 구조를 가지고 있는 것이 일반적입니다.

                   

또한, 설문지는 대체로 다음과 같은 과정을 거쳐 작성하게 됩니다.

 

                     

질문 내용을 결정할 때에는 이 질문이 꼭 필요한 것인지, 응답자가 질문의 답을 알고 있을 것인지, 응답자가 질문에 대한 답을 제공할 용의가 있는지를 검토해 보아야 합니다. 또한 질문의 내용이 의도하는 전체 내용을 중복 없이, 빠짐없이(MECE; Mutually Exclusive, Collectively Exhaustive)포함하고 있는지도 고민해야 합니다.

질문의 내용을 결정하는 것뿐만 아니라 질문의 형태를 결정하는 것 역시 중요합니다. 척도형이나 연속형 변수값을 얻을 수 있는 질문은 데이터 분석 단계에서 보다 깊이 있고 다양한 분석을 허용하지만 설문 작성 단계에서는 응답자의 피로도를 높일 가능성이 높기 때문에 타협점을 찾는 일이 대단히 어렵습니다. 다만 분명한 것은 과도한 척도형 문항을 하나의 설문조사에서 남발할 경우 자칫 조사 자체가 불가능해질 수 있습니다. 단 한 번의 조사로 모든 것을 해결하려는 만용을 부리기보다는 거듭되는 연구를 통해 개념을 정제해 나가는 노력에 천착해야 합니다.

설문지 작성의 대원칙은 “simple & straight-forward"입니다. 설문지는 다양한 사람이 보게 되므로 누가 보더라도 이해할 수 있도록 최대한 쉽게 작성해야 합니다. 그리고 가능한 쉽고 명확한 단어를 사용해 오해의 소지가 없어야 합니다. 예를 들어 ‘귀하께서는 가장 최근 유기농 두부를 어디에서 구입하셨습니까?’ 단수응답형 질문에 대해 ‘1)동네반찬가게 2) 대형 마트 3)SSM 4) 동네 마트 5)동네 슈퍼 6) 백화점 7)재래시장’이라는 보기를 제시하였다면 우선 무엇을 유기농 두부로 볼 것인지 정의해 주어야 하고, 동네 마트와 동네 슈퍼는 무엇으로 구분할지, SSM은 무엇을 의미하는지 설명해 주어야 합니다.

그리고 응답자가 생각할 수 있는 모든 내용을 선택항목에 포함해야 합니다. ‘귀댁 첫째 자녀는 학교에서 안전교육을 받은 적이 있습니까?’라는 질문의 보기를 ‘예/아니요’로만 제시하면 자칫 실제 안전교육 실시 횟수와는 전혀 다른 값이 나올 수도 있습니다. 만약 응답 학부모들이 교육 실시 여부를 잘 모르는 상태에서 응당 학교에서 실시했을 것이라는 가정 하에 편향된 응답을 하면 안전교육 경험비율은 실제 안전교육 실시 횟수를 훨씬 상회하게 될 것입니다.

응답 항목들 간에는 내용이 중복되면 안 되고, 서로 명확하게 구분할 수 있어야 합니다. 월평균 가구소득을 묻는 질문의 보기로 ‘1)100만 원 이하 2)100만 원대....’ 라고 제시하면 응답자가 혼란을 느낄 수밖에 없습니다. ‘1)99만 원 이하 2)100만원~199만원 미만’과 같이 명확하게 구분해 주어야 합니다. 국내 시장조사에서는 결혼 여부에 대해 ‘미혼/기혼’만을 보기로 제시하는 것이 아직은 일반적이지만 해외 조사의 경우에는 단순히 ‘미혼/기혼’으로만 구분하지 않고 이혼여부, 동거여부 등 다양한 결혼형태를 보기로 제시하기도 합니다.

하나의 질문으로는 한 가지 내용만 질문해야 합니다. ‘들러보고 싶은 여행지와 여행 테마를 알려주세요.’라는 질문은 여행지를 적으라는 것인지 여행 테마를 적으라는 것인지 아니면 둘 다 적으라는 것인지 응답자에게 혼선을 야기할 뿐만 아니라 설문조사 완료 이후 데이터 분석을 곤란하게 하고 데이터에 대한 해석이 모호해지는 문제를 야기합니다.

응답자의 몸무게나 성적 취향 등 사적인 정보나 사회적으로 민감한 주제 등 대답하기 곤란한 질문은 가급적 자제해야 하고 원하는 대답을 유도하는 질문도 금지입니다. 예를 들어 ‘제사는 조상을 생각하는 미풍양속입니다. 귀하는 제사를 지내는 것에 찬성하십니까?’라는 질문은 제사를 반대할 경우 조상을 전혀 생각하지 않는 나쁜 사람일 수 있다는 응답자 본인에 대한 가치판단이 포함되어 있습니다. 실제 제사에 대한 찬성 여부에 상관없이 찬성비율이 높아질 가능성이 있습니다.

응답자에게 지나치게 자세한 응답을 요구하는 질문도 금물입니다. 예를 들어 ‘지난 일년간 영화를 보기 위해 극장에 몇 번이나 가셨습니까? 정확하게 말씀해 주십시오. ( )번’ 라는 질문은 사실상 응답자가 기억해서 답변할 수 없기 때문에 마음대로 답변하거나 익숙한 숫자로 답변할 가능성이 높습니다.

임의의 가정을 전제로 한 질문 역시 금지입니다. ‘아이들이 분주하게 쫓기는 시간을 보낸다면 그 이유는 무엇 때문인가요?”라는 질문은 암묵적으로 모든 아이들이 시간에 쫓기는 생활을 하고 있다고 가정하고 있어 실제로는 시간에 쫓기지 않는 경우를 과소 반영하는 문제가 있습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다!

                               

 

'야행하는 리서치' 카테고리의 다른 글

34. 통계적 추정의 기본원리①  (0) 2017.07.26
33. 설문지의 순서배열  (0) 2017.07.20
31. 표본크기의 결정  (0) 2017.05.11
30. 표본오차의 이해  (0) 2017.05.08
29. 표본분포와 중심극한정리  (0) 2017.05.03
Posted by dooka
,

주어진 신뢰수준 하에서 표본크기가 주어지면 오차한계를 계산할 수 있으며 최대허용오차를 결정하고 나면 필요한 표본크기를 알 수 있습니다. 이제 오차한계를 이용해 표본크기를 구해 보겠습니다. 구체적인 표본크기 결정 과정은 아래와 같습니다.

 

 

비복원추출일 경우 허용오차한계를 알기 위해서는 모집단의 크기를 알아야 합니다. 그러나, 모집단의 크기가 표본에 비해 매우 큰 경우에는 복원추출과 비복원추출의 차이가 거의 없게 되기 때문에 모집단의 크기를 아는 것의 의미는 크게 줄어들게 됩니다.

목표 표본크기는 오차한계와 신뢰수준을 결정함으로써 결정합니다. 오차한계는 표본통계량(표본평균)과 모집단 특성치(모평균)의 최대허용오차를 의미하며 표본추출을 반복함에 따라 표본통계량이 관심 있는 모집단의 특성치를 얼마나 오차없이 반영하는지를 나타내는 개념입니다. 신뢰수준은 표본추출을 반복할 경우 그 결과를 평균적으로 얼마나 신뢰할 수 있는지 나타냅니다. 오차한계가 작을수록 모집단 특성치에 대한 유용한 정보를 제공하지만 오차한계가 작아지면 모집단에 대한 추론이 틀릴 가능성도 높아지게 됩니다. 그러므로 표본조사의 결과에 대해 평균적으로 어느 정도의 신뢰수준을 확보할 지 결정한 후에 허용 오차한계를 충족하는 최소한의 표본크기를 찾는 방식으로 표본크기를 결정합니다. 오차한계는 비율개념으로 볼 때 10%를 넘지 않는 것이 좋으며, 표본조사의 결과 해석이 의사결정의 품질을 하락시키지 않기 위해서는 신뢰수준을 90% 이하로 낮추는 것은 바람직하지 않습니다. 일반적으로 신뢰수준은 95%가 통용되고 있습니다.

신뢰수준 95%를 가정했을 때 허용가능한 표본오차의 한계를 표본평균-모평균=d라고 하면 오차한계=표본평균-모평균이 d보다 같거나 작을 확률은 다음과 같습니다.

   

표본크기 n인 표본이 평균이 μ이고 분산이 σ2인 모집단으로부터 얻어진 확률표본이고 표본크기가 충분히 크다면 중심극한정리를 적용할 수 있고 근사적으로 표본평균 는 평균이 이고 표본평균의 분산이 σ2/n인 정규분포를 따르게 됩니다. 그러므로, 정규분포의 성질에 따라 아래 Z는 근사적으로  평균이 0이고 분산이 1인 표준정규분포를 따릅니다.   

그러므로, 다음이 성립하고 표준정규분포에서 면적이 0.95 즉 신뢰수준이 0.95인 표준정규분포변수의 값을 계산하여 비교하면 허용오차한계에 대응하는 최소 표본크기를 계산할 수 있습니다.

오차한계는 주어진 신뢰수준 하에서 좌우대칭이 되도록 설정합니다. 왜냐하면 면적으로 확률을 계산하므로 비대칭으로 오차한계를 설정하게 되면 동일한 확률에 대해 상대적으로 큰 오차를 허용할 수 밖에 없기 때문입니다. 좌우대칭 형태로 오차한계를 설정하기 때문에 신뢰수준 95%에 해당하는 표준정규분포 변수 값을 구하기 위해서는 P(Z≦Z0.025)-P(Z≦-Z0.025)=97.5%-2.5% =95%를 만족하는 Z0.025값을 찾으면 됩니다. Z0.025는 표준정규분포에서 Z0.025보다 같거나 작을 확률이 100%-2.5%=97.5%을 만족하는 표준정규분포 변수의 값을 의미합니다. 이 변수값의 표기를 Z0.975로 하지 않고 Z0.025로 표기하는 이유는 일반적인 표기이기도 하거니와, 나중에 가설검정을 위해서도 편리하기 때문입니다.

 

 

이제 오픈소스 통계프로그램인 R에서 Z0.025와 -Z0.025의 값을 구해 보겠습니다. R에서 표준정규분포 확률에 해당하는 변수의 값을 계산하는 명령어는 ‘qnorm(확률)’입니다. 입력해야 할 확률은 각각 97.5%와 2.5%이므로 R에서 qnorm 명령어를 실행하면 Z0.025=1.96이 됩니다. 정규분포는 좌우대칭을 이루고 있으므로 Z1-0.025=-Z0.025=-1.96이 됨을 확인할 수 있습니다.

> qnorm(0.975)

[1] 1.959964

> qnorm(0.025)

[1] -1.959964

 

신뢰수준 95% 하에서 최대 허용오차에 대응하는 최소 필요 표본크기를 알기 위해  을 표본크기 n에 대해 정리해보면 표본크기 n은 최소한 보다는 크거나 같아야 함을 알 수 있습니다. 아래 표본크기의 산출공식

은 모집단의 크기가 표본크기에 비해 매우 커서 복원추출과 거의 차이가 없는 경우 적용할 수 있는 공식입니다.

 

 

 

 

예를 들어 편의점을 통해 새로운 간편식품 판매를 고려하고 있는 기업이 경쟁 제품 구매자를 대상으로 신제품 구매의향 가격을 조사한다고 생각해보겠습니다. 선행조사를 통해 표준편차 σ는 560으로 알려져 있고 구매의향 가격의 허용오차를 100원 이내로 제어하고 싶다면 필요한 최소한 표본크기가 121명 이상인 표본을 추출해야 합니다.

 

우리가 흔히 접하는 비율 역시 수리적으로는 평균이므로 중심극한정리를 적용해 필요한 표본크기를 알아 볼 수 있습니다. 어떤 도시에서 특정 후보에 대한 지지율이 60%가 되는지 알아보기 위해 표본조사를 실시할 경우 신뢰수준 95% 하에서 지지율의 허용 오차한계를 5% 이내로 제어하고 싶다면 어느 정도의 표본이 필요한지 알아보겠습니다.

우선 지지율 은 평균이 0.6 이고 분산이 0.6(1-0.6)/n인 분포를 따르고 확률표본의 조건을 충족할 경우 중심극한정리에 의해 근사적으로 정규분포를 따르게 됩니다.

 

표본크기를 기준으로 최대허용오차를 정리하면 최소 369명의 표본이 필요함을 알 수 있습니다.

이렇게 목표 표본크기를 구했다면 응답률을 고려해 표본추출 작업을 수행해야 합니다. 예를 들어 그간의 경험을 통해 응답률이 25% 내외라는 것을 알고 있고 최종 목표 표본크기가 100명이라면 표본추출 시 100/25%=400명 내외의 표본을 추출해야 합니다.

지금까지 살펴본 표본크기 결정방법은 기본적으로 하나의 질문, 하나의 변수를 기준으로 한 방법입니다. 그러므로 실제 설문조사에서는 꼭 필요하거나 응답 대상자 분류의 기준이 되는 변수를 기준으로 표본크기를 정하게 됩니다. 만약 시장점유율 10%인 양문형 냉장고 브랜드 A를 포함한 양문형 냉장고 카테고리 소비자 대상 설문조사를 기획할 경우 표본크기가 100명이라면 A 브랜드 구매자는 10명에 불과합니다. 또한 연령별 행태의 차이를 보기 위해 연령별로 자료를 구분해 보면 연령별 사례수는 더욱 감소합니다.

그래서 목표시장인 25세~35세 여성의 A 브랜드 구매 행태를 정밀하게 보기 위해 25~29세 50명, 30~35세 50명, 총 100명의 A 브랜드 구매자를 표본에 포함시키기로 했다면 전체 목표 표본크기는 1,000명이 되고 응답률이 25%라면 총 4,000명을 표본추출해야 합니다. 만약 4,000명의 표본크기가 필요한 정보와 확보 예산에 비해 너무 크다고 판단한다면 전체 양문형 냉장고 시장에 대해서는 400명 내외의 표본으로 전체 시장을 살펴보고 400명 중에 포함된 A 브랜드 구매자 40명 외에 A 브랜드 구매자 60명만을 추가로 조사해 A 브랜드에 대해서는 40명+60명=100명을 대상으로 A 브랜드의 세부사항에 대해 알아 볼 수도 있습니다. 이렇게 특정 집단에 속하는 응답자를 추가로 조사할 경우, 추가 조사를 본 조사와 분리하여 진행해야 합니다. 예를 들어 오프라인에서 일대일조사를 통해 본 조사에 더하여 추가 조사를 실시할 경우 담당 조사원이나 조사 시기를 분리하지 않으면 중요한 지표가 과대 추정되거나 과소 추정될 수 있습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!  

                                                     

 

 

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

33. 설문지의 순서배열  (0) 2017.07.20
32. 설문지 작성 방법  (0) 2017.07.17
30. 표본오차의 이해  (0) 2017.05.08
29. 표본분포와 중심극한정리  (0) 2017.05.03
28. 표본조사와 표본통계량  (0) 2017.05.03
Posted by dooka
,

한번의 표본추출을 통해 얻어지는 표본통계량의 값과 관심있는 모집단의 특성치와의 차이를 표본오차(sampling error)라고 합니다. 표본오차는 표본통계량의 값-모집단의 특성치로 정의할 수 있으며 표본통계량이 표본평균인 경우 표본오차는 표본평균의 값-모평균으로 정의할 수 있습니다. 모집단의 일부를 표본으로 추출해 구한 표본평균은 모l평균과 일치하지 않는 것이 일반적입니다. 이처럼 표본을 통해 모집단을 추론하는 과정에서 발생하는 필연적인 오차가 표본오차입니다.

 

표본오차를 표본평균과 모평균의 차이라고 한다면, 우리는 모평균을 모르고 있으므로 한 번의 표본추출에서의 표본오차가 구체적으로 어느 정도인지 알 수 없습니다. 그러나, 일정 표본크기 이상의 독립적이고 동일한 분포를 따르는 확률표본을 반복적으로 추출한다고 하면 중심극한정리에 의해 표본평균은 모평균을 중심으로 정규분포를 따르게 됨을 알고 있습니다.

 

그러므로 설문조사의 기획자는 개별 표본의 표본오차는 알 수 없지만 표본크기와 신뢰수준이 주어진 경우 반복적으로 표본추출을 했을 때 표본통계량과 최대 변동 즉 오차한계(정도, precision)는 관리할 수 있게 됩니다. 신뢰수준이란 표본추출을 반복할 경우 그 결과를 평균적으로 얼마나 신뢰할 수 있는지를 나타내는 개념입니다. 예를 들어 신뢰수준이 95%라고 하면 표본추출을 반복할 경우 적어도 그 중 95%의 표본은 관심 있는 모집단 특성치에 대한 정보를 포함할 것이라고 생각할 수 있습니다.

 

표본크기가 정해져 있는 경우에는 오차한계를 줄이면서 동시에 신뢰수준을 높일 수는 없습니다. 왜냐하면 신뢰수준을 높이기 위해서는 허용가능한 표본평균의 변동폭을 가급적 넓게 허용해서 표본평균의 가능한 변동 범위 내에 모평균을 포함할 가능성을 높여야 하는데 이는 결국 더 큰 오차한계를 허용해야 한다는 의미이기 때문입니다.

           

                          

            

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!  

                                            

 

 

Posted by dooka
,

실제 설문조사에서 매번 일일이 가능한 표본의 경우의 수를 모두 계산해서 표본평균의 표본분포를 구성하고 이를 근거로 모집단의 특성을 추론한다면 매우 번거로운 일이 아닐 수 없습니다. 그런데, 일정한 조건을 충족하면 확률분포를 직접 다루지 않고도 모집단의 특성을 추론할 수 있는 방법이 있습니다.

동전의 앞면과 뒷면이 나올 확률이 각각 정확하게 0.5라고 가정해 보겠습니다. 동전을 던져서 앞면이 나오는 평균 횟수 즉 앞면이 나올 확률의 분포를 알아보는 실험을 해보겠습니다. 먼저 동전을 10번 던지는 실험을 실행하고, 다음으로 동전을 30번 던지는 실험을 실행해서 앞면이 나오는 횟수의 평균이 어떤 확률분포를 가지는지 관찰해 보았습니다. 표본크기가 10인 표본을 반복해서 추출하는 경우와 표본크기가 30인 표본을 반복해서 추출하는 경우의 표본평균을 비교한다고 생각해도 무방합니다.

 

동전을 던진 횟수가 10회, 표본크기가 10인 경우에 비해 동전을 던진 횟수가 30회, 표본크기가 30인 경우의 확률분포 형태가 달라졌음을 알 수 있습니다. 표본크기가 30인 경우에 자료가 모집단의 확률인 0.5를 중심으로 모이면서 좌우대칭인 모습을 보이고 있습니다.

이처럼 표본크기를 늘려가면서 표본추출을 반복하면 표본평균의 확률분포 즉 표본분포(sampling distribution)가 특정한 확률분포에 근사하게 되는데 이를 중심극한정리(central limit theorem)라고 합니다. 중심극한정리의 적용 조건이 되는 독립적이고 동일한 분포를 따르는 표본을 특히 확률표본이라고 합니다.

중심극한정리에 의하면 미지의 확률분포를 따르는, 평균이 μ이고 분산이 σ2인 모집단으로부터 확률적으로 독립인 표본을 추출했을 때, 표본크기 n이 증가할수록 표본평균은 평균이 μ이고 분산이 σ2/n인 정규분포에 근사하게 됩니다.

모분산은 자료의 제곱합을 개체수로 나누는 반면, 표본분산은 표본 자료의 제곱합을 (표본크기-1)로 나누어 구합니다. 표본분산을 표본크기가 아닌 (표본크기-1)로 나누어 구하는 이유는 (표본크기-1)로 나눈 표본분산의 기대값이 모분산과 일치하기 때문입니다. 분산을 제곱근한 값을 표준편차라고 하며 표준편차를 표본크기의 제곱근으로 나눈 값, 즉 표본평균의 분산을 제곱근한 값을 표준오차라고 합니다.

중심극한정리를 적용하기 위해서는 평균과 분산을 계산할 수 있어야 하므로 사칙연산을 적용할 수 없는 명목척도와 서열척도의 확률변수에는 중심극한정리를 직접 적용할 수는 없습니다.

하나의 확률변수가 표본에 포함될 지 여부에 관계없이 다른 확률변수가 포함될 확률이 변동하지 않는 경우 확률적으로 독립이라고 합니다. 그런데 확률적 독립이라는 개념은 직관적으로 이해하는 것보다 좀 더 엄격한 의미를 담고 있습니다. 확률적으로 독립이라고 하면 모든 가능한 경우에 표본으로 포함될 확률이 서로 무관해야 함을 뜻합니다. 표본크기 n인 표본을 구성하는 확률변수 X1, X2, ...., Xn이 확률적으로 독립이 되기 위해서는 X1과 X2, X1과 X2와X3 ,이런 식으로 X1, X2, ...., Xn까지 모든 가능한 조합이 확률적으로 독립이여야 합니다.

중심극한정리를 적용하기 위한 확률적 독립의 가정은 엄밀하게 보면 설문조사에서 관철되지 않습니다. 왜냐하면 설문조사에서 한번 조사대상이 된 응답자는 표본추출에서 제외하는 비복원추출이 일반적이기 때문입니다. 만약 3명으로 이루어진 모집단이 있고 표본으로 선택될 확률이 1/3이라고 할 때, 비복원추출을 적용하면 1/3의 확률로 최초 선택한 개체가 정해진 후 다음 개체가 추출될 확률은 1/2로 변경되므로 더 이상 확률적으로 독립이 아닙니다. 그럼에도 설문조사에서 중심극한정리를 적용할 수 있는 이유는 모집단에 비해 표본크기가 매우 작아 비복원추출을 하더라도 실제로는 표본으로 선택될 확률의 차이가 거의 없다고 볼 수 있는 경우가 많기 때문입니다. 2017년 1사분기 현재 서울시의 주민등록인구는 9,926,928명입니다. 이들 서울시의 주민등록인구를 대상으로 400명의 표본을 추출한다고 하면 서울시 주민등록인구 중 최초로 표본으로 선택될 확률은 1/9,926,928이고, 마지막 400번째 표본으로 선택될 확률은 1/(9,926,928-399)가 되므로 거의 동일한 확률로 보아도 무방할 것입니다.

중심극한정리의 유용성은 모집단의 확률분포와는 무관하게 표본평균의 확률분포-표본분포가 정규분포에 근사하기 때문에 보편적으로 모집단의 관심 있는 특성을 추론할 수 있다는 점에 있습니다. 정규분포의 형태는 아래와 같이 좌우대칭의 종모양을 이루고 있습니다.

아래 정규분포의 확률분포에서 함수 f(X)를 확률밀도함수라고 하는데, 정확하게 확률과 일치하는 개념은 아닙니다. 확률밀도함수의 값이 확률이 되는 것이 아니라 확률밀도함수의 면적이 확률입니다. 설문조사에서 특정한 값이 나올 가능성은 매우 낮다는 점을 생각해보면 확률을 특정한 값이 아닌 구간에 대응시키는 것이 보다 설득력이 있습니다.

 

                                        

                        

만약 표본평균이 중심극한정리에 의해 정규분포를 따른다면 표본평균이 모평균으로부터 1×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.683이 되고, 2×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.954, 3×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.997이 됩니다.

                                         

서로 다른 표본통계량이 서로 확률적으로 독립적이고 각각 근사적으로 정규분포를 따른다면 이들 표본통계량의 합 또는 차의 분포 역시 근사적으로 정규분포를 따르는 것으로 알려져 있습니다.이러한 정규분포의 성질은 두 모집단을 비교할 때 매우 유용합니다.

만약 표본평균이 독립적이고 동일한 분포를 따르는 표본으로부터 얻은 표본통계량이라면 표본평균을 모집단평균으로 차감하고 표본평균의 분산을 제곱근한 표준오차로 나누어주면 이 확률변수는 평균이 0이고 분산이 1인 정규분포를 근사적으로 따르게 됩니다. 특별히 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 하며, 서로 다른 평균과 분산으로 정의하는 다양한 정규분포를 따르는 확률변수들이라고 하더라도 해당 확률변수를 평균으로 차감하고 분산을 제곱근한 표준편차로 나눠 줄 경우 표준정규분포를 따르게 되므로 정규분포를 따르는 다양한 확률변수를 일의적으로 분석할 수 있는 길이 열리게 됩니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!

                                     

 

Posted by dooka
,

통계량과 통계량의 분포에 대한 이해는 표본오차와 표본크기의 결정뿐만 아니라 나중에 통계적 의사결정을 이해하기 위해서도 매우 중요합니다.

표본으로부터 얻어진 값이 반드시 모집단의 관심 있는 모수와 일치한다는 보장은 없으며 오히려 일치하지 않는 것이 일반적입니다. 표본조사로부터 얻어질 수 있는 모든 가능한 결과들의 집합을 표본공간이라고 하고, 확률변수는 표본공간을 정의역으로 하고 실수공간을 치역으로 하는 함수로 정의합니다. 표본통계량은 미지의 모수를 포함하지 않는 확률변수의 함수입니다. 표본통계량은 확률변수의 함수이므로 표본통계량 역시 확률변수입니다. 확률변수와 표본통계량의 개념을 이해하기 위해 아주 총3명으로 이루어진 모집단을 예로 들어 보겠습니다.

총 3명의 소비자로 이루어진 시장을 있으며 이들은 특정 제품에 대해 서로 다른 호감도를 가지고 있습니다. 이들 중 2명을 표본추출하여 전체 시장의 호감도를 알아보는 설문조사에서 확률표본추출을 적용한다면 가능한 표본은 다음과 같습니다. 괄호안의 수치는 호감도를 나타냅니다.

                           

사례에서 제품에 대한 호감도가 확률변수입니다. 모집단의 호감도는 정해진 숫자이지만 표본의 호감도는 어떤 표본이 추출되는가에 따라 달라지는 변수입니다. 표본에서 얻은 호감도의 평균 즉 표본평균이 표본통계량입니다. 설문조사에서 개별 응답자들이 특정 질문에 응답한 값들이 표본조사로부터 얻어질 수 있는 모든 가능한 결과들의 집합-표본공간에 대응되는 확률변수의 구체적인 실현값들이 됩니다.

여기에서 유념할 점은 개별 소비자가 표본에 포함될 확률이 다른 소비자가 표본에 포함될 확률에 영향을 미치지 않고 있으며 각각의 표본이 선택될 확률 역시 다른 표본이 선택될 확률과 무관하다는 것입니다.

가능한 확률변수의 값들에 대하여 각각의 값들에 대한 확률에 대응시킨 것을 확률분포라고 합니다. 확률변수 전체를 다루는 것은 비효율적이므로 우리는 확률변수에 포함된 정보를 요약한 표본통계량의 확률분포에 관심을 가지게 됩니다. 통계량의 대표적인 예는 바로 표본평균입니다. 표본평균과 같은 통계량의 확률분포를 표본분포(sampling distribution)라고 하며, 표본의 분포와는 구별합니다. 동일한 표본통계량이라고 하더라도 추출 표본에 따라 구체적인 표본통계량의 값은 달라질 수 밖에 없으며, 구체적인 표본통계량의 값이 모집단의 관심있는 특성을 얼마나 잘 반영하는지는 알 수 없습니다. 그러므로 표본분포 즉 통계량의 분포를 살펴봄으로써 관심 있는 모집단의 특성을 추론하여야 합니다.

사례에서의 표본평균에 각각의 확률을 대응시킨 확률분포는 아래와 같습니다. 개별 표본평균의 값은 모집단 평균과 일치하지 않지만 가능한 표본평균들의 평균은 모집단 평균이 됨을 알 수 있습니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!

                                                      

 

 

 

 

Posted by dooka
,

23. 단순임의추출

25. 층화임의추출

단순임의추출에서 특정표본이 추출될 확률이 동일하므로 실제 표본은 극단적인 응답자들이 추출될 가능성도 있습니다. 표본추출을 반복하면 표본은 평균적으로 모집단을 대표하겠지만 개별 표본은 그렇지 않을 수 있습니다. 층화임의추출을 적용하게 되면 이런 한계를 극복할 수 있습니다.

층화임의추출법(stratified random sampling)은 모집단을 몇 개의 이질적인 층(stratum)으로 구분하여 각 층별로 임의추출법을 적용하는 방법입니다. 층화임의추출법은 비확률표본추출방법 중 하나인 할당표본추출(quota smapling)과 구분해야 합니다. 할당표본추출은 편향된 표본을 추출하지 않도록 모집단의 특성에 비례하여 표본을 추출하는 방법입니다.

층화임의추출법에서는 단순임의추출법에서의 모분산을 층내 분산과 층간 분산으로 분해해 볼 수 있습니다. 동일 층의 이질성은 낮추고 서로 다른 층간의 이질성은 높아지도록 표본추출하는 층화임의추출법을 적용하게 되면 층내 분산이 감소하게 되어 전체 분산이 줄어드는 효과가 있습니다. 최대허용오차-오차한계는 분산의 제곱근인 표준편차에 비례하고 표본크기의 제곱근에 반비례하는데 서로 다른 층의 이질성이 커지도록 층화임의추출법을 적용하게 되면 단순임의추출법에 비해 보다 정확한 표본추출이 가능해집니다.

아래 그림과 같이 총 10명으로 이루어진 가상의 시장을 생각해보도록 하겠습니다. 이들 소비자는 모양에서 원형, 사각형, 오각형의 특성을 가지고 있고 색상 측면에서는 흰색, 회색, 검은색의 특성을 가지고 있고 이는 관찰할 수 있는 특성입니다. 각각의 소비자의 연번을 부여해 두었고 괄호 안의 수치는 우리가 개발할 신제품에 대한 호감도를 나타냅니다. 이들 호감도는 우리가 조사를 해보시지 않으면 직접 관찰할 수는 없습니다. 그간의 경험으로 비춰 표본조사를 통해 얻은 신제품 컨셉트에 대한 호감도가 10점 만점에 7점 이상이면 제품 출시 시 제품을 구매하는 것으로 알려져 있다고 가정해 보겠습니다.

              

                                         

                         

이제 10명의 모집단으로부터 3명의 표본을 추출해서 평균 호감도를 알아보겠습니다. 각각의 개체에 연번(id)을 부여한 후 단순임의추출법을 적용해 난수를 발생한 후 개체를 정렬해임의의 개체 3명을 선택해 보았습니다. 만약 아이디 2번, 5번, 10번이 선택되었다면 표본의 평균 호감도는 (6+10+10)/3, 8.7점이 됨을 알 수 있습니다. 호감도 10점 만점인 개체는 전체 모집단에서 30%에 불과하지만, 각각의 개체가 표본으로 선택될 가능성은 동일하므로 우연히 10점 만점의 개체가 과다 추출된 가능성이 있습니다. 예에서 보는 표본의 66%가 호감도 10점으로 나타나 직관적으로 보더라도 모집단과는 상당한 차이가 있음을 알 수 있습니다.

이번에는 층화임의추출법을 적용하여 개체의 도형 측면 특성이 사각형인 경우에 한명을 무작위로 선택하고 오각형인 경우와 원형인 경우에도 각각 한명 씩 무작위로 선택해 보았습니다. 선택된 개체가 아이디 10번, 1번, 3번이라고 하면 표본의 평균 호감도는 (10+4+3)/3, 5.7점이 됩니다. 극단치를 포함한 사각형인 경우가 표본으로 채택될 최대 숫자가 1명으로 제한되어 단순임의추출보다는 모집단을 대표하는 표본을 추출할 가능성이 커지는 것을 알 수 있습니다. 층화임의추출법은 집단 간 이질성이 존재하는 경우 단순임의추출법보다 정확하게 모집단을 대표하는 표본을 추출할 수 있습니다.

사례에서 추가로 제품의 단위당 생산원가가 5원이고 시장가격인 7원에 판매할 수 있다고 가정해 보겠습니다. 단순임의추출법에 의한 조사결과를 근거로 6개의 제품을 생산하면 시장에서는 4개만 판매될 것이므로 판매액은 28원, 총생산원가는 30원이 되어 2원의 손해를 보게 됩니다. 만약, 층화임의추출법에 의한 조사결과를 근거로 3개의 제품을 생산한다면 시장에서 모두 판매할 수 있을 것이므로 매출액은 21원, 총생산원가는 15원이 되어 6원의 이익을 얻을 수 있습니다.

그런데, 층화임의추출에서 집단을 구분하는 변수를 잘못 선정하면 오히려 표본의 대표성을 저해할 수 있습니다. 예에서 소비자 특성 중 도형이 아닌 색상을 기준으로 층화하는 경우를 생각해 보겠습니다. 검은색, 회색, 흰색인 개체들에서 각각 1명 씩 무작위로 추출한 결과 아이디 4번, 5번, 2번이 표본으로 선택되었다면 표본의 평균 선호도는 (10+10+6)/3, 8.7점이 되어 단순임의추출법과 동일한 결과가 나오는 것을 확인할 수 있습니다. 

                                  궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!

                                    

 

 

 

 

Posted by dooka
,