통계량과 통계량의 분포에 대한 이해는 표본오차와 표본크기의 결정뿐만 아니라 나중에 통계적 의사결정을 이해하기 위해서도 매우 중요합니다.

표본으로부터 얻어진 값이 반드시 모집단의 관심 있는 모수와 일치한다는 보장은 없으며 오히려 일치하지 않는 것이 일반적입니다. 표본조사로부터 얻어질 수 있는 모든 가능한 결과들의 집합을 표본공간이라고 하고, 확률변수는 표본공간을 정의역으로 하고 실수공간을 치역으로 하는 함수로 정의합니다. 표본통계량은 미지의 모수를 포함하지 않는 확률변수의 함수입니다. 표본통계량은 확률변수의 함수이므로 표본통계량 역시 확률변수입니다. 확률변수와 표본통계량의 개념을 이해하기 위해 아주 총3명으로 이루어진 모집단을 예로 들어 보겠습니다.

총 3명의 소비자로 이루어진 시장을 있으며 이들은 특정 제품에 대해 서로 다른 호감도를 가지고 있습니다. 이들 중 2명을 표본추출하여 전체 시장의 호감도를 알아보는 설문조사에서 확률표본추출을 적용한다면 가능한 표본은 다음과 같습니다. 괄호안의 수치는 호감도를 나타냅니다.

                           

사례에서 제품에 대한 호감도가 확률변수입니다. 모집단의 호감도는 정해진 숫자이지만 표본의 호감도는 어떤 표본이 추출되는가에 따라 달라지는 변수입니다. 표본에서 얻은 호감도의 평균 즉 표본평균이 표본통계량입니다. 설문조사에서 개별 응답자들이 특정 질문에 응답한 값들이 표본조사로부터 얻어질 수 있는 모든 가능한 결과들의 집합-표본공간에 대응되는 확률변수의 구체적인 실현값들이 됩니다.

여기에서 유념할 점은 개별 소비자가 표본에 포함될 확률이 다른 소비자가 표본에 포함될 확률에 영향을 미치지 않고 있으며 각각의 표본이 선택될 확률 역시 다른 표본이 선택될 확률과 무관하다는 것입니다.

가능한 확률변수의 값들에 대하여 각각의 값들에 대한 확률에 대응시킨 것을 확률분포라고 합니다. 확률변수 전체를 다루는 것은 비효율적이므로 우리는 확률변수에 포함된 정보를 요약한 표본통계량의 확률분포에 관심을 가지게 됩니다. 통계량의 대표적인 예는 바로 표본평균입니다. 표본평균과 같은 통계량의 확률분포를 표본분포(sampling distribution)라고 하며, 표본의 분포와는 구별합니다. 동일한 표본통계량이라고 하더라도 추출 표본에 따라 구체적인 표본통계량의 값은 달라질 수 밖에 없으며, 구체적인 표본통계량의 값이 모집단의 관심있는 특성을 얼마나 잘 반영하는지는 알 수 없습니다. 그러므로 표본분포 즉 통계량의 분포를 살펴봄으로써 관심 있는 모집단의 특성을 추론하여야 합니다.

사례에서의 표본평균에 각각의 확률을 대응시킨 확률분포는 아래와 같습니다. 개별 표본평균의 값은 모집단 평균과 일치하지 않지만 가능한 표본평균들의 평균은 모집단 평균이 됨을 알 수 있습니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!

                                                      

 

 

 

 

Posted by dooka
,