'표본크기'에 해당되는 글 2건

  1. 2017.05.11 31. 표본크기의 결정
  2. 2017.05.08 30. 표본오차의 이해

주어진 신뢰수준 하에서 표본크기가 주어지면 오차한계를 계산할 수 있으며 최대허용오차를 결정하고 나면 필요한 표본크기를 알 수 있습니다. 이제 오차한계를 이용해 표본크기를 구해 보겠습니다. 구체적인 표본크기 결정 과정은 아래와 같습니다.

 

 

비복원추출일 경우 허용오차한계를 알기 위해서는 모집단의 크기를 알아야 합니다. 그러나, 모집단의 크기가 표본에 비해 매우 큰 경우에는 복원추출과 비복원추출의 차이가 거의 없게 되기 때문에 모집단의 크기를 아는 것의 의미는 크게 줄어들게 됩니다.

목표 표본크기는 오차한계와 신뢰수준을 결정함으로써 결정합니다. 오차한계는 표본통계량(표본평균)과 모집단 특성치(모평균)의 최대허용오차를 의미하며 표본추출을 반복함에 따라 표본통계량이 관심 있는 모집단의 특성치를 얼마나 오차없이 반영하는지를 나타내는 개념입니다. 신뢰수준은 표본추출을 반복할 경우 그 결과를 평균적으로 얼마나 신뢰할 수 있는지 나타냅니다. 오차한계가 작을수록 모집단 특성치에 대한 유용한 정보를 제공하지만 오차한계가 작아지면 모집단에 대한 추론이 틀릴 가능성도 높아지게 됩니다. 그러므로 표본조사의 결과에 대해 평균적으로 어느 정도의 신뢰수준을 확보할 지 결정한 후에 허용 오차한계를 충족하는 최소한의 표본크기를 찾는 방식으로 표본크기를 결정합니다. 오차한계는 비율개념으로 볼 때 10%를 넘지 않는 것이 좋으며, 표본조사의 결과 해석이 의사결정의 품질을 하락시키지 않기 위해서는 신뢰수준을 90% 이하로 낮추는 것은 바람직하지 않습니다. 일반적으로 신뢰수준은 95%가 통용되고 있습니다.

신뢰수준 95%를 가정했을 때 허용가능한 표본오차의 한계를 표본평균-모평균=d라고 하면 오차한계=표본평균-모평균이 d보다 같거나 작을 확률은 다음과 같습니다.

   

표본크기 n인 표본이 평균이 μ이고 분산이 σ2인 모집단으로부터 얻어진 확률표본이고 표본크기가 충분히 크다면 중심극한정리를 적용할 수 있고 근사적으로 표본평균 는 평균이 이고 표본평균의 분산이 σ2/n인 정규분포를 따르게 됩니다. 그러므로, 정규분포의 성질에 따라 아래 Z는 근사적으로  평균이 0이고 분산이 1인 표준정규분포를 따릅니다.   

그러므로, 다음이 성립하고 표준정규분포에서 면적이 0.95 즉 신뢰수준이 0.95인 표준정규분포변수의 값을 계산하여 비교하면 허용오차한계에 대응하는 최소 표본크기를 계산할 수 있습니다.

오차한계는 주어진 신뢰수준 하에서 좌우대칭이 되도록 설정합니다. 왜냐하면 면적으로 확률을 계산하므로 비대칭으로 오차한계를 설정하게 되면 동일한 확률에 대해 상대적으로 큰 오차를 허용할 수 밖에 없기 때문입니다. 좌우대칭 형태로 오차한계를 설정하기 때문에 신뢰수준 95%에 해당하는 표준정규분포 변수 값을 구하기 위해서는 P(Z≦Z0.025)-P(Z≦-Z0.025)=97.5%-2.5% =95%를 만족하는 Z0.025값을 찾으면 됩니다. Z0.025는 표준정규분포에서 Z0.025보다 같거나 작을 확률이 100%-2.5%=97.5%을 만족하는 표준정규분포 변수의 값을 의미합니다. 이 변수값의 표기를 Z0.975로 하지 않고 Z0.025로 표기하는 이유는 일반적인 표기이기도 하거니와, 나중에 가설검정을 위해서도 편리하기 때문입니다.

 

 

이제 오픈소스 통계프로그램인 R에서 Z0.025와 -Z0.025의 값을 구해 보겠습니다. R에서 표준정규분포 확률에 해당하는 변수의 값을 계산하는 명령어는 ‘qnorm(확률)’입니다. 입력해야 할 확률은 각각 97.5%와 2.5%이므로 R에서 qnorm 명령어를 실행하면 Z0.025=1.96이 됩니다. 정규분포는 좌우대칭을 이루고 있으므로 Z1-0.025=-Z0.025=-1.96이 됨을 확인할 수 있습니다.

> qnorm(0.975)

[1] 1.959964

> qnorm(0.025)

[1] -1.959964

 

신뢰수준 95% 하에서 최대 허용오차에 대응하는 최소 필요 표본크기를 알기 위해  을 표본크기 n에 대해 정리해보면 표본크기 n은 최소한 보다는 크거나 같아야 함을 알 수 있습니다. 아래 표본크기의 산출공식

은 모집단의 크기가 표본크기에 비해 매우 커서 복원추출과 거의 차이가 없는 경우 적용할 수 있는 공식입니다.

 

 

 

 

예를 들어 편의점을 통해 새로운 간편식품 판매를 고려하고 있는 기업이 경쟁 제품 구매자를 대상으로 신제품 구매의향 가격을 조사한다고 생각해보겠습니다. 선행조사를 통해 표준편차 σ는 560으로 알려져 있고 구매의향 가격의 허용오차를 100원 이내로 제어하고 싶다면 필요한 최소한 표본크기가 121명 이상인 표본을 추출해야 합니다.

 

우리가 흔히 접하는 비율 역시 수리적으로는 평균이므로 중심극한정리를 적용해 필요한 표본크기를 알아 볼 수 있습니다. 어떤 도시에서 특정 후보에 대한 지지율이 60%가 되는지 알아보기 위해 표본조사를 실시할 경우 신뢰수준 95% 하에서 지지율의 허용 오차한계를 5% 이내로 제어하고 싶다면 어느 정도의 표본이 필요한지 알아보겠습니다.

우선 지지율 은 평균이 0.6 이고 분산이 0.6(1-0.6)/n인 분포를 따르고 확률표본의 조건을 충족할 경우 중심극한정리에 의해 근사적으로 정규분포를 따르게 됩니다.

 

표본크기를 기준으로 최대허용오차를 정리하면 최소 369명의 표본이 필요함을 알 수 있습니다.

이렇게 목표 표본크기를 구했다면 응답률을 고려해 표본추출 작업을 수행해야 합니다. 예를 들어 그간의 경험을 통해 응답률이 25% 내외라는 것을 알고 있고 최종 목표 표본크기가 100명이라면 표본추출 시 100/25%=400명 내외의 표본을 추출해야 합니다.

지금까지 살펴본 표본크기 결정방법은 기본적으로 하나의 질문, 하나의 변수를 기준으로 한 방법입니다. 그러므로 실제 설문조사에서는 꼭 필요하거나 응답 대상자 분류의 기준이 되는 변수를 기준으로 표본크기를 정하게 됩니다. 만약 시장점유율 10%인 양문형 냉장고 브랜드 A를 포함한 양문형 냉장고 카테고리 소비자 대상 설문조사를 기획할 경우 표본크기가 100명이라면 A 브랜드 구매자는 10명에 불과합니다. 또한 연령별 행태의 차이를 보기 위해 연령별로 자료를 구분해 보면 연령별 사례수는 더욱 감소합니다.

그래서 목표시장인 25세~35세 여성의 A 브랜드 구매 행태를 정밀하게 보기 위해 25~29세 50명, 30~35세 50명, 총 100명의 A 브랜드 구매자를 표본에 포함시키기로 했다면 전체 목표 표본크기는 1,000명이 되고 응답률이 25%라면 총 4,000명을 표본추출해야 합니다. 만약 4,000명의 표본크기가 필요한 정보와 확보 예산에 비해 너무 크다고 판단한다면 전체 양문형 냉장고 시장에 대해서는 400명 내외의 표본으로 전체 시장을 살펴보고 400명 중에 포함된 A 브랜드 구매자 40명 외에 A 브랜드 구매자 60명만을 추가로 조사해 A 브랜드에 대해서는 40명+60명=100명을 대상으로 A 브랜드의 세부사항에 대해 알아 볼 수도 있습니다. 이렇게 특정 집단에 속하는 응답자를 추가로 조사할 경우, 추가 조사를 본 조사와 분리하여 진행해야 합니다. 예를 들어 오프라인에서 일대일조사를 통해 본 조사에 더하여 추가 조사를 실시할 경우 담당 조사원이나 조사 시기를 분리하지 않으면 중요한 지표가 과대 추정되거나 과소 추정될 수 있습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!  

                                                     

 

 

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

33. 설문지의 순서배열  (0) 2017.07.20
32. 설문지 작성 방법  (0) 2017.07.17
30. 표본오차의 이해  (0) 2017.05.08
29. 표본분포와 중심극한정리  (0) 2017.05.03
28. 표본조사와 표본통계량  (0) 2017.05.03
Posted by dooka
,

한번의 표본추출을 통해 얻어지는 표본통계량의 값과 관심있는 모집단의 특성치와의 차이를 표본오차(sampling error)라고 합니다. 표본오차는 표본통계량의 값-모집단의 특성치로 정의할 수 있으며 표본통계량이 표본평균인 경우 표본오차는 표본평균의 값-모평균으로 정의할 수 있습니다. 모집단의 일부를 표본으로 추출해 구한 표본평균은 모l평균과 일치하지 않는 것이 일반적입니다. 이처럼 표본을 통해 모집단을 추론하는 과정에서 발생하는 필연적인 오차가 표본오차입니다.

 

표본오차를 표본평균과 모평균의 차이라고 한다면, 우리는 모평균을 모르고 있으므로 한 번의 표본추출에서의 표본오차가 구체적으로 어느 정도인지 알 수 없습니다. 그러나, 일정 표본크기 이상의 독립적이고 동일한 분포를 따르는 확률표본을 반복적으로 추출한다고 하면 중심극한정리에 의해 표본평균은 모평균을 중심으로 정규분포를 따르게 됨을 알고 있습니다.

 

그러므로 설문조사의 기획자는 개별 표본의 표본오차는 알 수 없지만 표본크기와 신뢰수준이 주어진 경우 반복적으로 표본추출을 했을 때 표본통계량과 최대 변동 즉 오차한계(정도, precision)는 관리할 수 있게 됩니다. 신뢰수준이란 표본추출을 반복할 경우 그 결과를 평균적으로 얼마나 신뢰할 수 있는지를 나타내는 개념입니다. 예를 들어 신뢰수준이 95%라고 하면 표본추출을 반복할 경우 적어도 그 중 95%의 표본은 관심 있는 모집단 특성치에 대한 정보를 포함할 것이라고 생각할 수 있습니다.

 

표본크기가 정해져 있는 경우에는 오차한계를 줄이면서 동시에 신뢰수준을 높일 수는 없습니다. 왜냐하면 신뢰수준을 높이기 위해서는 허용가능한 표본평균의 변동폭을 가급적 넓게 허용해서 표본평균의 가능한 변동 범위 내에 모평균을 포함할 가능성을 높여야 하는데 이는 결국 더 큰 오차한계를 허용해야 한다는 의미이기 때문입니다.

           

                          

            

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!  

                                            

 

 

Posted by dooka
,