한번의 표본추출을 통해 얻어지는 표본통계량의 값과 관심있는 모집단의 특성치와의 차이를 표본오차(sampling error)라고 합니다. 표본오차는 표본통계량의 값-모집단의 특성치로 정의할 수 있으며 표본통계량이 표본평균인 경우 표본오차는 표본평균의 값-모평균으로 정의할 수 있습니다. 모집단의 일부를 표본으로 추출해 구한 표본평균은 모l평균과 일치하지 않는 것이 일반적입니다. 이처럼 표본을 통해 모집단을 추론하는 과정에서 발생하는 필연적인 오차가 표본오차입니다.

 

표본오차를 표본평균과 모평균의 차이라고 한다면, 우리는 모평균을 모르고 있으므로 한 번의 표본추출에서의 표본오차가 구체적으로 어느 정도인지 알 수 없습니다. 그러나, 일정 표본크기 이상의 독립적이고 동일한 분포를 따르는 확률표본을 반복적으로 추출한다고 하면 중심극한정리에 의해 표본평균은 모평균을 중심으로 정규분포를 따르게 됨을 알고 있습니다.

 

그러므로 설문조사의 기획자는 개별 표본의 표본오차는 알 수 없지만 표본크기와 신뢰수준이 주어진 경우 반복적으로 표본추출을 했을 때 표본통계량과 최대 변동 즉 오차한계(정도, precision)는 관리할 수 있게 됩니다. 신뢰수준이란 표본추출을 반복할 경우 그 결과를 평균적으로 얼마나 신뢰할 수 있는지를 나타내는 개념입니다. 예를 들어 신뢰수준이 95%라고 하면 표본추출을 반복할 경우 적어도 그 중 95%의 표본은 관심 있는 모집단 특성치에 대한 정보를 포함할 것이라고 생각할 수 있습니다.

 

표본크기가 정해져 있는 경우에는 오차한계를 줄이면서 동시에 신뢰수준을 높일 수는 없습니다. 왜냐하면 신뢰수준을 높이기 위해서는 허용가능한 표본평균의 변동폭을 가급적 넓게 허용해서 표본평균의 가능한 변동 범위 내에 모평균을 포함할 가능성을 높여야 하는데 이는 결국 더 큰 오차한계를 허용해야 한다는 의미이기 때문입니다.

           

                          

            

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!  

                                            

 

 

Posted by dooka
,

실제 설문조사에서 매번 일일이 가능한 표본의 경우의 수를 모두 계산해서 표본평균의 표본분포를 구성하고 이를 근거로 모집단의 특성을 추론한다면 매우 번거로운 일이 아닐 수 없습니다. 그런데, 일정한 조건을 충족하면 확률분포를 직접 다루지 않고도 모집단의 특성을 추론할 수 있는 방법이 있습니다.

동전의 앞면과 뒷면이 나올 확률이 각각 정확하게 0.5라고 가정해 보겠습니다. 동전을 던져서 앞면이 나오는 평균 횟수 즉 앞면이 나올 확률의 분포를 알아보는 실험을 해보겠습니다. 먼저 동전을 10번 던지는 실험을 실행하고, 다음으로 동전을 30번 던지는 실험을 실행해서 앞면이 나오는 횟수의 평균이 어떤 확률분포를 가지는지 관찰해 보았습니다. 표본크기가 10인 표본을 반복해서 추출하는 경우와 표본크기가 30인 표본을 반복해서 추출하는 경우의 표본평균을 비교한다고 생각해도 무방합니다.

 

동전을 던진 횟수가 10회, 표본크기가 10인 경우에 비해 동전을 던진 횟수가 30회, 표본크기가 30인 경우의 확률분포 형태가 달라졌음을 알 수 있습니다. 표본크기가 30인 경우에 자료가 모집단의 확률인 0.5를 중심으로 모이면서 좌우대칭인 모습을 보이고 있습니다.

이처럼 표본크기를 늘려가면서 표본추출을 반복하면 표본평균의 확률분포 즉 표본분포(sampling distribution)가 특정한 확률분포에 근사하게 되는데 이를 중심극한정리(central limit theorem)라고 합니다. 중심극한정리의 적용 조건이 되는 독립적이고 동일한 분포를 따르는 표본을 특히 확률표본이라고 합니다.

중심극한정리에 의하면 미지의 확률분포를 따르는, 평균이 μ이고 분산이 σ2인 모집단으로부터 확률적으로 독립인 표본을 추출했을 때, 표본크기 n이 증가할수록 표본평균은 평균이 μ이고 분산이 σ2/n인 정규분포에 근사하게 됩니다.

모분산은 자료의 제곱합을 개체수로 나누는 반면, 표본분산은 표본 자료의 제곱합을 (표본크기-1)로 나누어 구합니다. 표본분산을 표본크기가 아닌 (표본크기-1)로 나누어 구하는 이유는 (표본크기-1)로 나눈 표본분산의 기대값이 모분산과 일치하기 때문입니다. 분산을 제곱근한 값을 표준편차라고 하며 표준편차를 표본크기의 제곱근으로 나눈 값, 즉 표본평균의 분산을 제곱근한 값을 표준오차라고 합니다.

중심극한정리를 적용하기 위해서는 평균과 분산을 계산할 수 있어야 하므로 사칙연산을 적용할 수 없는 명목척도와 서열척도의 확률변수에는 중심극한정리를 직접 적용할 수는 없습니다.

하나의 확률변수가 표본에 포함될 지 여부에 관계없이 다른 확률변수가 포함될 확률이 변동하지 않는 경우 확률적으로 독립이라고 합니다. 그런데 확률적 독립이라는 개념은 직관적으로 이해하는 것보다 좀 더 엄격한 의미를 담고 있습니다. 확률적으로 독립이라고 하면 모든 가능한 경우에 표본으로 포함될 확률이 서로 무관해야 함을 뜻합니다. 표본크기 n인 표본을 구성하는 확률변수 X1, X2, ...., Xn이 확률적으로 독립이 되기 위해서는 X1과 X2, X1과 X2와X3 ,이런 식으로 X1, X2, ...., Xn까지 모든 가능한 조합이 확률적으로 독립이여야 합니다.

중심극한정리를 적용하기 위한 확률적 독립의 가정은 엄밀하게 보면 설문조사에서 관철되지 않습니다. 왜냐하면 설문조사에서 한번 조사대상이 된 응답자는 표본추출에서 제외하는 비복원추출이 일반적이기 때문입니다. 만약 3명으로 이루어진 모집단이 있고 표본으로 선택될 확률이 1/3이라고 할 때, 비복원추출을 적용하면 1/3의 확률로 최초 선택한 개체가 정해진 후 다음 개체가 추출될 확률은 1/2로 변경되므로 더 이상 확률적으로 독립이 아닙니다. 그럼에도 설문조사에서 중심극한정리를 적용할 수 있는 이유는 모집단에 비해 표본크기가 매우 작아 비복원추출을 하더라도 실제로는 표본으로 선택될 확률의 차이가 거의 없다고 볼 수 있는 경우가 많기 때문입니다. 2017년 1사분기 현재 서울시의 주민등록인구는 9,926,928명입니다. 이들 서울시의 주민등록인구를 대상으로 400명의 표본을 추출한다고 하면 서울시 주민등록인구 중 최초로 표본으로 선택될 확률은 1/9,926,928이고, 마지막 400번째 표본으로 선택될 확률은 1/(9,926,928-399)가 되므로 거의 동일한 확률로 보아도 무방할 것입니다.

중심극한정리의 유용성은 모집단의 확률분포와는 무관하게 표본평균의 확률분포-표본분포가 정규분포에 근사하기 때문에 보편적으로 모집단의 관심 있는 특성을 추론할 수 있다는 점에 있습니다. 정규분포의 형태는 아래와 같이 좌우대칭의 종모양을 이루고 있습니다.

아래 정규분포의 확률분포에서 함수 f(X)를 확률밀도함수라고 하는데, 정확하게 확률과 일치하는 개념은 아닙니다. 확률밀도함수의 값이 확률이 되는 것이 아니라 확률밀도함수의 면적이 확률입니다. 설문조사에서 특정한 값이 나올 가능성은 매우 낮다는 점을 생각해보면 확률을 특정한 값이 아닌 구간에 대응시키는 것이 보다 설득력이 있습니다.

 

                                        

                        

만약 표본평균이 중심극한정리에 의해 정규분포를 따른다면 표본평균이 모평균으로부터 1×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.683이 되고, 2×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.954, 3×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.997이 됩니다.

                                         

서로 다른 표본통계량이 서로 확률적으로 독립적이고 각각 근사적으로 정규분포를 따른다면 이들 표본통계량의 합 또는 차의 분포 역시 근사적으로 정규분포를 따르는 것으로 알려져 있습니다.이러한 정규분포의 성질은 두 모집단을 비교할 때 매우 유용합니다.

만약 표본평균이 독립적이고 동일한 분포를 따르는 표본으로부터 얻은 표본통계량이라면 표본평균을 모집단평균으로 차감하고 표본평균의 분산을 제곱근한 표준오차로 나누어주면 이 확률변수는 평균이 0이고 분산이 1인 정규분포를 근사적으로 따르게 됩니다. 특별히 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 하며, 서로 다른 평균과 분산으로 정의하는 다양한 정규분포를 따르는 확률변수들이라고 하더라도 해당 확률변수를 평균으로 차감하고 분산을 제곱근한 표준편차로 나눠 줄 경우 표준정규분포를 따르게 되므로 정규분포를 따르는 다양한 확률변수를 일의적으로 분석할 수 있는 길이 열리게 됩니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!

                                     

 

Posted by dooka
,

통계량과 통계량의 분포에 대한 이해는 표본오차와 표본크기의 결정뿐만 아니라 나중에 통계적 의사결정을 이해하기 위해서도 매우 중요합니다.

표본으로부터 얻어진 값이 반드시 모집단의 관심 있는 모수와 일치한다는 보장은 없으며 오히려 일치하지 않는 것이 일반적입니다. 표본조사로부터 얻어질 수 있는 모든 가능한 결과들의 집합을 표본공간이라고 하고, 확률변수는 표본공간을 정의역으로 하고 실수공간을 치역으로 하는 함수로 정의합니다. 표본통계량은 미지의 모수를 포함하지 않는 확률변수의 함수입니다. 표본통계량은 확률변수의 함수이므로 표본통계량 역시 확률변수입니다. 확률변수와 표본통계량의 개념을 이해하기 위해 아주 총3명으로 이루어진 모집단을 예로 들어 보겠습니다.

총 3명의 소비자로 이루어진 시장을 있으며 이들은 특정 제품에 대해 서로 다른 호감도를 가지고 있습니다. 이들 중 2명을 표본추출하여 전체 시장의 호감도를 알아보는 설문조사에서 확률표본추출을 적용한다면 가능한 표본은 다음과 같습니다. 괄호안의 수치는 호감도를 나타냅니다.

                           

사례에서 제품에 대한 호감도가 확률변수입니다. 모집단의 호감도는 정해진 숫자이지만 표본의 호감도는 어떤 표본이 추출되는가에 따라 달라지는 변수입니다. 표본에서 얻은 호감도의 평균 즉 표본평균이 표본통계량입니다. 설문조사에서 개별 응답자들이 특정 질문에 응답한 값들이 표본조사로부터 얻어질 수 있는 모든 가능한 결과들의 집합-표본공간에 대응되는 확률변수의 구체적인 실현값들이 됩니다.

여기에서 유념할 점은 개별 소비자가 표본에 포함될 확률이 다른 소비자가 표본에 포함될 확률에 영향을 미치지 않고 있으며 각각의 표본이 선택될 확률 역시 다른 표본이 선택될 확률과 무관하다는 것입니다.

가능한 확률변수의 값들에 대하여 각각의 값들에 대한 확률에 대응시킨 것을 확률분포라고 합니다. 확률변수 전체를 다루는 것은 비효율적이므로 우리는 확률변수에 포함된 정보를 요약한 표본통계량의 확률분포에 관심을 가지게 됩니다. 통계량의 대표적인 예는 바로 표본평균입니다. 표본평균과 같은 통계량의 확률분포를 표본분포(sampling distribution)라고 하며, 표본의 분포와는 구별합니다. 동일한 표본통계량이라고 하더라도 추출 표본에 따라 구체적인 표본통계량의 값은 달라질 수 밖에 없으며, 구체적인 표본통계량의 값이 모집단의 관심있는 특성을 얼마나 잘 반영하는지는 알 수 없습니다. 그러므로 표본분포 즉 통계량의 분포를 살펴봄으로써 관심 있는 모집단의 특성을 추론하여야 합니다.

사례에서의 표본평균에 각각의 확률을 대응시킨 확률분포는 아래와 같습니다. 개별 표본평균의 값은 모집단 평균과 일치하지 않지만 가능한 표본평균들의 평균은 모집단 평균이 됨을 알 수 있습니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!

                                                      

 

 

 

 

Posted by dooka
,