본추출의 개요

표본추출의 종류

단순임의추출

이번 시간에는 확률표본추출방법 중 층화임의추출법에 대해 알아 보겠습니다. 층화임의추출법(stratified random sampling)은 모집단을 몇 개의 이질적인 층(stratum)으로 구분하여 각 층별로 임의추출법을 적용하는 방법입니다. 층화임의추출법은 비확률표본추출방법 중 하나인 할당표본추출(quota smapling)과 구분해야 합니다. 할당표본추출은 편향된 표본을 추출하지 않도록 모집단의 특성에 비례하여 표본을 추출하는 방법입니다. 최종 조사집계표만 본다면 할당표본추출은 층화임의추출과 유사한 모습을 보이지만 확률표본추출을 적용하지 않는다는 점에서 층화임의추출과는 완전히 다른 표본추출방법입니다.

단순임의추출법과 층화임의추출법을 비교하기 위해 모분산을 층내분산과 층간분산으로 분해해 보았습니다. 동일 층의 이질성은 낮추고 서로 다른 층간의 이질성은 높아지도록 표본추출하는 층화임의추출법을 적용하게 되면 아래 수식의 앞 부분 즉 층내분산이 감소하게 되어 전체 분산이 줄어드는 효과가 있습니다. 최대허용오차-오차한계는 분산의 제곱근인 표준편차에 비례하고 표본크기의 제곱근에 반비례하므로 서로 다른 층의 이질성이 커지도록 층화임의추출법을 적용하게 되면 단순임의추출법에 비해 보다 정확한 표본추출이 가능해집니다.



층화임의추출법에서 각 층에 표본을 할당하는 배분방법에는 비례배분과 불비례배분이 있습니다. 불비례배분에는 네이만배분(Neyman allocation)과 데밍배분(Deming allocation)이 있습니다. 각각의 배분방법은 일정한 가정 하에서 최대허용오차를 제약조건으로 비용을 극소화하는 배분방법입니다.



비례배분은 각층별로 조사비용에 차이가 없고 분산 역시 동일할 경 각 층이 모집단에서 차지하는 비율에 비례하여 표본을 할당하는 방법입니다. 네이만배분은 전체 표본크기가 주어져 있고 각 층별로 조사단위별 변동비용이 동일한 경우 각 층의 표준편차와 각 층에 속하는 모집단 크기에 비례하여 표본을 할당하는 방법입니다. 마지막으로 데밍배분은 총 비용이 일정하게 주어져 있고 각 층별로 비용이 상이할 경우 각 층의 표준편차가 클수록, 각 층의 조사단위별 변동비용이 작을수록 보다 많은 표본을 할당하는 방법입니다.

층화임의추출법은 집단 간 이질성이 존재하는 경우 단순임의추출법보다 정확하게 모집단을 대표하는 표본을 추출할 수 있습니다. 다만, 집단을 구분하는 변수를 잘못 선정하면 오히려 표본의 대표성을 저해할 수 있습니다.

실제 설문조사에서는 층화임의추출법만을 적용하기 보다는 다른 표본추출방법과 결합하여 사용하는 것이 일반적입니다. 예를 들어 행정구역별로 주민 인구수에 비례하여 표본크기를 할당하고 일정 간격에 따라 조사대상 가구를 추출하게 되면 행정구역별로 단순임의추출법을 적용한 것과 유사한 효과를 기대할 수 있습니다.

층화임의추출법에서 각 층의 모집단 크기나 분산을 사전적으로 알 수 없는 경우가 많습니다. 모집단에 대한 추론을 위해 표본을 추출하는데 모집단에 대한 정보를 알아야 한다는 모순이 있는 것입니다. 결국 조사의 반복이라는 경험을 통해 선험적 모순을 극복하려는 노력이 필요함을 알 수 있습니다.


궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다! 

                           




Posted by dooka
,

【 문제 5 】 제품만족도와 기업신뢰도라는 구성개념(construct)을 측정하기 위하여 각 구성개념별로 복수의 설문문항을 사용하였다. 제품만족도와 기업신뢰도를 독립변수로 하고 기업 수익성을 종속변수로 하는 회귀모형을 분석하고자 할 때, 두 독립변수의 측정항목을 대상으로 요인분석을 실행하여 독립변수 값으로 투입하기 위한 방법을 설명하시오.(10점)


☞ 문제 解說 5번 문제는 요인분석을 이용한 측정의 타당성 점검을 묻는 것인지, 회귀분석에서의 다중공선성에 대한 대처수단으로서의 요인분석을 묻는 것인지는 분명하지 않으나 구성개념을 측정하기 위해 설문문항을 구성했다는 지시문으로 볼 때 측정의 타당성 점검과 관련한 문제로 보입니다. 그러나, 정확하게 어떤 내용을 언급해야 할지 명확하지는 않습니다. 문제 5번과 같이 논점이 다소 분명하지 않은 경우에는 본인이 생각하는 답변 외에도 관련 내용을 간략하게나마 언급하는 것이 안전할 것입니다.


제품만족도와 기업신뢰도라는 추상적 개념을 측정도구 즉 설문이 얼마나 잘 반영하는지를 파악하기 위해 요인분석을 적용하게 됩니다. 요인분석은 변수들 간의 상관관계가 높은 것끼리 묶어 공통요인을 추출하는 다변량분석기법으로 입력변수들의 총분산을 이용해 공통요인을 추출하는 주성분분석과 입력변수들이 가지는 공통분산만을 이용해 공통요인을 추출하는 공통요인분석이 있습니다. 정보의 손실을 방지하기 위해 주성분을 적용하는 것이 일반적입니다.


요인분석 실시결과 항목의 요인적재량(factor loading)이 0.6이상이면 분석대상 변수가 해당요인에 속하는 것으로 판단하게 됩니다. 요인적재량이란 각 변수와 요인간의 상관계수로 해당 변수를 그 요인이 얼마나 잘 설명해주는가를 나타냅니다. 요인분석 결과 원래 의도한 구성개념대로 항목들이 하나의 요인으로 묶이고, 다른 개념으로 분류한 항목들이 다른 요인으로 묶이는지 파악함으로써 측정의 타당성을 점검할 수 있습니다.


제품만족도와 기업신뢰도를 구성하는 세부항목을 이루는 변수들을 회귀분석을 위한 독립변수로 활용할 경우, 독립변수들간의 강한 선형관계로 인해 회귀계수의 계산이 불가능하거나 회귀계수의 표준오차를 과장하여 검정 자체가 불가능하게 만드는 다중공선성의 문제가 발생하게 됩니다.


다중공선성의 문제를 보정하기 위한 방법으로 서로 공행하는 독립변수들을 하나의 주성분으로 통합하여 이들 주성분에 종속변수를 회귀시키는 방법이 있습니다. 주성분분석은 n개의 입력변수를 가지는 총분산을 n개의 주성분으로 다시 나타내고 총분산에 대한 설명력이 높은 순서대로 주성분요인을 추출하는 방법입니다. 주성분분석에서 원래의 변수들과 요인간의 관계를 분명히 하게 하기 위해 요인축을 회전하게 되는데 요인의 축들이 직각이 되도록 회전하게 되면 요인 간의 상관관계가 거의 없어지므로 다중공선성을 보정할 수 있습니다. 기존 독립변수 대신 주성분을 독립변수로 한 회귀분석을 실시하게 되면 주성분들 간의 독립성이 보장되므로 다중공선성의 문제를 보정할 수 있습니다.


그러나, 회귀분석에 적용한 주성분들은 원래 독립변수들의 선형결합 형태를 취하고 있기 때문에 직관적인 해석이 매우 어렵다는 취약점이 있습니다. 또한 독립변수의 총분산에 대한 설명력이 가장 높은 주성분이라고 하더라도 이것이 반드시 종속변수와 가장 높은 상관관계를 지는 것이 아니라는 한계가 있습니다.  


【 문제 6 】 층화표본추출법의 개념과 그 추출방법 2가지에 관하여 설명하시오. (10점)


추출확률이 정해져 있고 사전적으로 알 수 있어 표본추출로 인해 발생하는 오차에 대한 추정이 가능한 확률표본추출방법에는 가장 기본적인 단순임의추출 외에 층화표본추출, 체계적 추출 및 집락추출의 방법이 있습니다.


층화표본추출법은 모집단을 이질적인 몇 개의 층(stratum)으로 구분하여 각 층별로 단순임의추출을 적용하는 방법입니다. 층화표본추출법은 각 층별로 충분한 표본크기 확보가 가능하고 층간 이질성이 클 경우 조사의 정확성을 증대시킬 수 있습니다.


층화표본추출법에는 각 층의 크기만을 고려하는 비례배분과 분산까지 고려하는 최적배분의 방법이 있습니다. 비례배분은 층당 조사비용과 분산이 동일할 경우 적용하는 방법으로 각 층이 모집단에서 차지하는 비율만큼 표본을 할당하는 방법입니다.




최적배분은 허용오차한계를 제약조건으로 조사비용을 극소화하는 표본할당방법을 찾은 것입니다. 최적배분은 다시 네이만 배분(Neyman allocation)와 데밍 배분(Deming allocation)으로 구분할 수 있습니다.


네이만 배분(Neyman allocation)은 표본크기가 일정하게 주어져 있고 층마다 조사단위별 비용이 일정할 때 적용하는 방법으로 표본에 대한 할당은 각 층이 모집단에서 차지하는 비중 외에도 각 층별 분산에 비례하여 표본을 할당합니다.

 



데밍 배분(Deming allocation)은 총비용이 일정하게 주어져 있고 조사단위당 비용이 층에 따라 크게 변동할 때 적용하는 방법으로 각 층이 모집단에서 차지하는 비중이 클수록, 각 층의 분산이 클수록 표본을 보다 더 많이 할당하고 각 층의 조사단위당 비용이 높을수록 표본을 더 적게 할당하게 됩니다.




층화표본추출은 집단 간에 이질성이 존재할 경우 단순임의추출보다 더 정확하게 모집단을 대표하는 표본을 추출할 수 있습니다. 그러나, 집단을 구분하는 변수가 잘못된 경우 오히려 대표성을 저해할 수 있습니다.

Posted by dooka
,