'단순임의추출'에 해당되는 글 4건

  1. 2017.05.03 27. 단순임의추출과 층화임의추출의 비교
  2. 2017.04.24 26. 체계적 추출과 집락추출
  3. 2017.04.03 25. 층화임의추출
  4. 2017.02.27 23. 단순임의추출

23. 단순임의추출

25. 층화임의추출

단순임의추출에서 특정표본이 추출될 확률이 동일하므로 실제 표본은 극단적인 응답자들이 추출될 가능성도 있습니다. 표본추출을 반복하면 표본은 평균적으로 모집단을 대표하겠지만 개별 표본은 그렇지 않을 수 있습니다. 층화임의추출을 적용하게 되면 이런 한계를 극복할 수 있습니다.

층화임의추출법(stratified random sampling)은 모집단을 몇 개의 이질적인 층(stratum)으로 구분하여 각 층별로 임의추출법을 적용하는 방법입니다. 층화임의추출법은 비확률표본추출방법 중 하나인 할당표본추출(quota smapling)과 구분해야 합니다. 할당표본추출은 편향된 표본을 추출하지 않도록 모집단의 특성에 비례하여 표본을 추출하는 방법입니다.

층화임의추출법에서는 단순임의추출법에서의 모분산을 층내 분산과 층간 분산으로 분해해 볼 수 있습니다. 동일 층의 이질성은 낮추고 서로 다른 층간의 이질성은 높아지도록 표본추출하는 층화임의추출법을 적용하게 되면 층내 분산이 감소하게 되어 전체 분산이 줄어드는 효과가 있습니다. 최대허용오차-오차한계는 분산의 제곱근인 표준편차에 비례하고 표본크기의 제곱근에 반비례하는데 서로 다른 층의 이질성이 커지도록 층화임의추출법을 적용하게 되면 단순임의추출법에 비해 보다 정확한 표본추출이 가능해집니다.

아래 그림과 같이 총 10명으로 이루어진 가상의 시장을 생각해보도록 하겠습니다. 이들 소비자는 모양에서 원형, 사각형, 오각형의 특성을 가지고 있고 색상 측면에서는 흰색, 회색, 검은색의 특성을 가지고 있고 이는 관찰할 수 있는 특성입니다. 각각의 소비자의 연번을 부여해 두었고 괄호 안의 수치는 우리가 개발할 신제품에 대한 호감도를 나타냅니다. 이들 호감도는 우리가 조사를 해보시지 않으면 직접 관찰할 수는 없습니다. 그간의 경험으로 비춰 표본조사를 통해 얻은 신제품 컨셉트에 대한 호감도가 10점 만점에 7점 이상이면 제품 출시 시 제품을 구매하는 것으로 알려져 있다고 가정해 보겠습니다.

              

                                         

                         

이제 10명의 모집단으로부터 3명의 표본을 추출해서 평균 호감도를 알아보겠습니다. 각각의 개체에 연번(id)을 부여한 후 단순임의추출법을 적용해 난수를 발생한 후 개체를 정렬해임의의 개체 3명을 선택해 보았습니다. 만약 아이디 2번, 5번, 10번이 선택되었다면 표본의 평균 호감도는 (6+10+10)/3, 8.7점이 됨을 알 수 있습니다. 호감도 10점 만점인 개체는 전체 모집단에서 30%에 불과하지만, 각각의 개체가 표본으로 선택될 가능성은 동일하므로 우연히 10점 만점의 개체가 과다 추출된 가능성이 있습니다. 예에서 보는 표본의 66%가 호감도 10점으로 나타나 직관적으로 보더라도 모집단과는 상당한 차이가 있음을 알 수 있습니다.

이번에는 층화임의추출법을 적용하여 개체의 도형 측면 특성이 사각형인 경우에 한명을 무작위로 선택하고 오각형인 경우와 원형인 경우에도 각각 한명 씩 무작위로 선택해 보았습니다. 선택된 개체가 아이디 10번, 1번, 3번이라고 하면 표본의 평균 호감도는 (10+4+3)/3, 5.7점이 됩니다. 극단치를 포함한 사각형인 경우가 표본으로 채택될 최대 숫자가 1명으로 제한되어 단순임의추출보다는 모집단을 대표하는 표본을 추출할 가능성이 커지는 것을 알 수 있습니다. 층화임의추출법은 집단 간 이질성이 존재하는 경우 단순임의추출법보다 정확하게 모집단을 대표하는 표본을 추출할 수 있습니다.

사례에서 추가로 제품의 단위당 생산원가가 5원이고 시장가격인 7원에 판매할 수 있다고 가정해 보겠습니다. 단순임의추출법에 의한 조사결과를 근거로 6개의 제품을 생산하면 시장에서는 4개만 판매될 것이므로 판매액은 28원, 총생산원가는 30원이 되어 2원의 손해를 보게 됩니다. 만약, 층화임의추출법에 의한 조사결과를 근거로 3개의 제품을 생산한다면 시장에서 모두 판매할 수 있을 것이므로 매출액은 21원, 총생산원가는 15원이 되어 6원의 이익을 얻을 수 있습니다.

그런데, 층화임의추출에서 집단을 구분하는 변수를 잘못 선정하면 오히려 표본의 대표성을 저해할 수 있습니다. 예에서 소비자 특성 중 도형이 아닌 색상을 기준으로 층화하는 경우를 생각해 보겠습니다. 검은색, 회색, 흰색인 개체들에서 각각 1명 씩 무작위로 추출한 결과 아이디 4번, 5번, 2번이 표본으로 선택되었다면 표본의 평균 선호도는 (10+10+6)/3, 8.7점이 되어 단순임의추출법과 동일한 결과가 나오는 것을 확인할 수 있습니다. 

                                  궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!

                                    

 

 

 

 

Posted by dooka
,

18. 표본추출의 개요

20. 표본추출의 종류

 

                                                                 23. 단순임의추출

                                                                 25. 층화임의추출

 

                                                             

 

단순임의추출과 층화임의추출에 이어서 체계적 추출(systematic sampling)과 집락추출(cluster sampling)에 대해 알아보겠습니다.

체계적 추출은 미리 정해진 규칙에 따라 시간적으로나 공간적으로 일정한 간격을 두고 표본을 추출하는 방법입니다. 모집단의 크기가 N, 표본크기가 n이라고 하면 k=N/n을 추출간격으로 해서 처음 k의 추출단위에서 무작위로 하나를 추출하고 다음부터는 k번째마다 표본을 추출해 나가면 됩니다.

표본 내의 추출단위가 이질적이면 이질적일수록 체계적 추출의 정확성은 증가하게 됩니다. 모집단의 추출단위가 무작위로 배열되어 있으면 체계적 추출은 단순임의추출과 유사한 효과가 있습니다. 반면, 모집단의 추출단위가 크기 순서로 배열되어 있으면 체계적 추출은 층화임의추출과 유사하게 됩니다. 실제로 모집단의 명단이 주어진 경우 임의로 배열한 후 체계적 추출을 적용해 보면 직급이나 근무부서 등 관심 있는 변수들의 구성비가 모집단가 유사함을 확인할 수 있습니다.

체계적 추출은 간편한 방법으로 모집단 전체에서 표본을 골고루 추출할 수 있는 반면에 무집단의 순서에 예측하지 못한 주기성이 있다면 체계적 추출로 얻은 표본은 모집단을 대표하지 못할 가능성이 높습니다.



집락추출은 모집단 조사단위의 집합인 집락을 추출단위로 하여 임의추출하는 방법입니다. 모집단을 부분집단인 집락으로 나눈 다음 몇 개의 집락을 임의추출하여 집락 내의 조사단위를 전수 조사하는 방법입니다. 각 집락들이 모집단과 같은 특성을 가지면 표본의 정확성은 증가합니다.

층화임의추출에서는 각 층 내의 조사단위가 동질적일수록 표본의 모집단 대표성이 개선되는 반면, 집락추출에서는 집락 내 조사단위가 이질적일수록 표본의 대표성이 개선됩니다.

집락추출은 조사비용을 절감하고 표본관리가 용이하면서도 정확한 추정이 가능하지만 집락 내 조사단위의 이질성을 확보하지 못하면 집락이 모집단을 대표할 수 없습니다.


궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다! 

                           










 

 


Posted by dooka
,

본추출의 개요

표본추출의 종류

단순임의추출

이번 시간에는 확률표본추출방법 중 층화임의추출법에 대해 알아 보겠습니다. 층화임의추출법(stratified random sampling)은 모집단을 몇 개의 이질적인 층(stratum)으로 구분하여 각 층별로 임의추출법을 적용하는 방법입니다. 층화임의추출법은 비확률표본추출방법 중 하나인 할당표본추출(quota smapling)과 구분해야 합니다. 할당표본추출은 편향된 표본을 추출하지 않도록 모집단의 특성에 비례하여 표본을 추출하는 방법입니다. 최종 조사집계표만 본다면 할당표본추출은 층화임의추출과 유사한 모습을 보이지만 확률표본추출을 적용하지 않는다는 점에서 층화임의추출과는 완전히 다른 표본추출방법입니다.

단순임의추출법과 층화임의추출법을 비교하기 위해 모분산을 층내분산과 층간분산으로 분해해 보았습니다. 동일 층의 이질성은 낮추고 서로 다른 층간의 이질성은 높아지도록 표본추출하는 층화임의추출법을 적용하게 되면 아래 수식의 앞 부분 즉 층내분산이 감소하게 되어 전체 분산이 줄어드는 효과가 있습니다. 최대허용오차-오차한계는 분산의 제곱근인 표준편차에 비례하고 표본크기의 제곱근에 반비례하므로 서로 다른 층의 이질성이 커지도록 층화임의추출법을 적용하게 되면 단순임의추출법에 비해 보다 정확한 표본추출이 가능해집니다.



층화임의추출법에서 각 층에 표본을 할당하는 배분방법에는 비례배분과 불비례배분이 있습니다. 불비례배분에는 네이만배분(Neyman allocation)과 데밍배분(Deming allocation)이 있습니다. 각각의 배분방법은 일정한 가정 하에서 최대허용오차를 제약조건으로 비용을 극소화하는 배분방법입니다.



비례배분은 각층별로 조사비용에 차이가 없고 분산 역시 동일할 경 각 층이 모집단에서 차지하는 비율에 비례하여 표본을 할당하는 방법입니다. 네이만배분은 전체 표본크기가 주어져 있고 각 층별로 조사단위별 변동비용이 동일한 경우 각 층의 표준편차와 각 층에 속하는 모집단 크기에 비례하여 표본을 할당하는 방법입니다. 마지막으로 데밍배분은 총 비용이 일정하게 주어져 있고 각 층별로 비용이 상이할 경우 각 층의 표준편차가 클수록, 각 층의 조사단위별 변동비용이 작을수록 보다 많은 표본을 할당하는 방법입니다.

층화임의추출법은 집단 간 이질성이 존재하는 경우 단순임의추출법보다 정확하게 모집단을 대표하는 표본을 추출할 수 있습니다. 다만, 집단을 구분하는 변수를 잘못 선정하면 오히려 표본의 대표성을 저해할 수 있습니다.

실제 설문조사에서는 층화임의추출법만을 적용하기 보다는 다른 표본추출방법과 결합하여 사용하는 것이 일반적입니다. 예를 들어 행정구역별로 주민 인구수에 비례하여 표본크기를 할당하고 일정 간격에 따라 조사대상 가구를 추출하게 되면 행정구역별로 단순임의추출법을 적용한 것과 유사한 효과를 기대할 수 있습니다.

층화임의추출법에서 각 층의 모집단 크기나 분산을 사전적으로 알 수 없는 경우가 많습니다. 모집단에 대한 추론을 위해 표본을 추출하는데 모집단에 대한 정보를 알아야 한다는 모순이 있는 것입니다. 결국 조사의 반복이라는 경험을 통해 선험적 모순을 극복하려는 노력이 필요함을 알 수 있습니다.


궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다! 

                           




Posted by dooka
,

표본추출의 개요

표본추출의 종류


표본추출확률을 사전적으로 알 수 있는 확률표본추출법에는 가장 기본적인 형태인 단순임의추출(simple random sampling), 모집단을 이질적인 몇 개의 층으로 구분하고 각 층별로 임의추출을 적용하는 층화임의추출(stratified random sampling), 표본을 시간적 공간적으로 일정한 간격을 두고 추출하는 체계적 추출(systematic sampling)과 모집단을 집락(cluster)으로 나눈 다음 표본집락을 임의추출하여 추출한 집락의 조사단위를 전수조사하는 집락추출(cluster sampling)의 방법이 있습니다.

이중 실제 적용하는 경우는 드물지만 가장 기본이 되는 단순임의추출을 살펴 보겠습니다. 단순임의추출은 모든 가능한 표본이 동일하게 추출될 기회를 가지도록 표본을 추출하는 방법입니다.

단순임의추출의 절차는 다음과 같습니다.

① 우선 모집단을 대표하는 프레임(명단)을 확보합니다. 모집단과 프레임은 구분되는 개념입니다. 모집단은 반드시 존재하지만 모집단에 대응되는 프레임은 확보하지 못할 수도 있습니다. 예를 들어 일정 기간 동안 자사의 특정제품을 구매한 경험이 있는 소비자를 모집단으로 정의한다면 이 모집단은 분명히 존재하지만 이 모집단을 대표하는 프레임을 확보하는 일은 현실적으로 불가능할 가능성이 높습니다.

② 프레임을 확보했다면 프레임 내 모든 표본추출단위에 일련번호를 부여합니다.

③ 다음은 일련번호를 부여한 각각의 표본추출단위에 균일분포(uniform distribution)를 따르는 난수를 부여합니다. 표본추출단위와 조사단위 역시 구분할 필요가 있습니다. 표본추출단위는 표본추출이 이루어지는 단위를 지칭하는 반면, 조사단위는 실제 조사가 이루어지는 단위입니다. 표본추출은 가구단위로 이루어지고 설문조사는 가구 구성원을 대상으로 이루어지는 경우를 생각해보면 이해가 쉬울 것 같습니다.

④ 마지막으로 난수를 기준으로 표본추출단위를 정렬한 다음, 목표한 수만큼 표본을 추출하면 됩니다.

아래 그림의 표본추출은 총 10명으로 구성된 모집단에서 3명으로 구성된 표본을 단순임의추출하는 과정입니다.

모집단의 규모가 큰 시장조사에서는 프레임이 없거나 입수하는 것이 거의 불가능하기 때문에 일반적인 시장조사에 단순임의추출을 적용하기는 대단히 어렵다고 하겠습니다.

단순임의추출을 통해 표본을 추출하더라도 현실적으로 조사를 진행하는 것이 어려울 수 있습니다. 시장조사에서 전국에 걸쳐 분포하는 소비자들을 조사한다고 생각해보면 소수의 대상자를 조사하기 위해 특정 지역으로 면접원을 보내는 것이 비용측면에서 실행 불가능할 수 있습니다.

단순임의추출에서 특정표본이 추출될 확률이 동일하므로 실제 표본은 극단적인 응답자들이 추출될 가능성도 있습니다. 표본추출을 반복하면 표본은 평균적으로 모집단을 대표하겠지만 개별 표본은 그렇지 않을 수 있습니다. 이런 한계를 극복하기 위해 층화임의추출을 적용할 수 있습니다.

 

                                         궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다! 

 

 

 

Posted by dooka
,