단순임의추출에서 특정표본이 추출될 확률이 동일하므로 실제 표본은 극단적인 응답자들이 추출될 가능성도 있습니다. 표본추출을 반복하면 표본은 평균적으로 모집단을 대표하겠지만 개별 표본은 그렇지 않을 수 있습니다. 층화임의추출을 적용하게 되면 이런 한계를 극복할 수 있습니다.
층화임의추출법(stratified random sampling)은 모집단을 몇 개의 이질적인 층(stratum)으로 구분하여 각 층별로 임의추출법을 적용하는 방법입니다. 층화임의추출법은 비확률표본추출방법 중 하나인 할당표본추출(quota smapling)과 구분해야 합니다. 할당표본추출은 편향된 표본을 추출하지 않도록 모집단의 특성에 비례하여 표본을 추출하는 방법입니다.
층화임의추출법에서는 단순임의추출법에서의 모분산을 층내 분산과 층간 분산으로 분해해 볼 수 있습니다. 동일 층의 이질성은 낮추고 서로 다른 층간의 이질성은 높아지도록 표본추출하는 층화임의추출법을 적용하게 되면 층내 분산이 감소하게 되어 전체 분산이 줄어드는 효과가 있습니다. 최대허용오차-오차한계는 분산의 제곱근인 표준편차에 비례하고 표본크기의 제곱근에 반비례하는데 서로 다른 층의 이질성이 커지도록 층화임의추출법을 적용하게 되면 단순임의추출법에 비해 보다 정확한 표본추출이 가능해집니다.
아래 그림과 같이 총 10명으로 이루어진 가상의 시장을 생각해보도록 하겠습니다. 이들 소비자는 모양에서 원형, 사각형, 오각형의 특성을 가지고 있고 색상 측면에서는 흰색, 회색, 검은색의 특성을 가지고 있고 이는 관찰할 수 있는 특성입니다. 각각의 소비자의 연번을 부여해 두었고 괄호 안의 수치는 우리가 개발할 신제품에 대한 호감도를 나타냅니다. 이들 호감도는 우리가 조사를 해보시지 않으면 직접 관찰할 수는 없습니다. 그간의 경험으로 비춰 표본조사를 통해 얻은 신제품 컨셉트에 대한 호감도가 10점 만점에 7점 이상이면 제품 출시 시 제품을 구매하는 것으로 알려져 있다고 가정해 보겠습니다.
이제 10명의 모집단으로부터 3명의 표본을 추출해서 평균 호감도를 알아보겠습니다. 각각의 개체에 연번(id)을 부여한 후 단순임의추출법을 적용해 난수를 발생한 후 개체를 정렬해임의의 개체 3명을 선택해 보았습니다. 만약 아이디 2번, 5번, 10번이 선택되었다면 표본의 평균 호감도는 (6+10+10)/3, 8.7점이 됨을 알 수 있습니다. 호감도 10점 만점인 개체는 전체 모집단에서 30%에 불과하지만, 각각의 개체가 표본으로 선택될 가능성은 동일하므로 우연히 10점 만점의 개체가 과다 추출된 가능성이 있습니다. 예에서 보는 표본의 66%가 호감도 10점으로 나타나 직관적으로 보더라도 모집단과는 상당한 차이가 있음을 알 수 있습니다.
이번에는 층화임의추출법을 적용하여 개체의 도형 측면 특성이 사각형인 경우에 한명을 무작위로 선택하고 오각형인 경우와 원형인 경우에도 각각 한명 씩 무작위로 선택해 보았습니다. 선택된 개체가 아이디 10번, 1번, 3번이라고 하면 표본의 평균 호감도는 (10+4+3)/3, 5.7점이 됩니다. 극단치를 포함한 사각형인 경우가 표본으로 채택될 최대 숫자가 1명으로 제한되어 단순임의추출보다는 모집단을 대표하는 표본을 추출할 가능성이 커지는 것을 알 수 있습니다. 층화임의추출법은 집단 간 이질성이 존재하는 경우 단순임의추출법보다 정확하게 모집단을 대표하는 표본을 추출할 수 있습니다.
사례에서 추가로 제품의 단위당 생산원가가 5원이고 시장가격인 7원에 판매할 수 있다고 가정해 보겠습니다. 단순임의추출법에 의한 조사결과를 근거로 6개의 제품을 생산하면 시장에서는 4개만 판매될 것이므로 판매액은 28원, 총생산원가는 30원이 되어 2원의 손해를 보게 됩니다. 만약, 층화임의추출법에 의한 조사결과를 근거로 3개의 제품을 생산한다면 시장에서 모두 판매할 수 있을 것이므로 매출액은 21원, 총생산원가는 15원이 되어 6원의 이익을 얻을 수 있습니다.
그런데, 층화임의추출에서 집단을 구분하는 변수를 잘못 선정하면 오히려 표본의 대표성을 저해할 수 있습니다. 예에서 소비자 특성 중 도형이 아닌 색상을 기준으로 층화하는 경우를 생각해 보겠습니다. 검은색, 회색, 흰색인 개체들에서 각각 1명 씩 무작위로 추출한 결과 아이디 4번, 5번, 2번이 표본으로 선택되었다면 표본의 평균 선호도는 (10+10+6)/3, 8.7점이 되어 단순임의추출법과 동일한 결과가 나오는 것을 확인할 수 있습니다.
궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!
'야행하는 리서치' 카테고리의 다른 글
29. 표본분포와 중심극한정리 (0) | 2017.05.03 |
---|---|
28. 표본조사와 표본통계량 (0) | 2017.05.03 |
26. 체계적 추출과 집락추출 (0) | 2017.04.24 |
25. 층화임의추출 (0) | 2017.04.03 |
24. 처음부터 끝까지 혼자 하는 고객만족도 조사_고객만족도조사를 위한 자료수집② (0) | 2017.03.13 |