'표본분포'에 해당되는 글 3건

  1. 2017.07.26 34. 통계적 추정의 기본원리①
  2. 2017.05.03 29. 표본분포와 중심극한정리
  3. 2017.05.03 28. 표본조사와 표본통계량

통계적 의사결정 과정에는 모집단에 대한 정보가 없는 상태에서 표본으로부터 얻은 정보를 이용해 모집단의 특징을 나타내는 대표값인 미지의 모수를 예측하는 추정 과정과 표본으로부터 얻은 정보를 이용해 미지의 모수에 대한 주장의 옳고 그름을 판단하는 가설검정 과정으로 구분해 볼 수 있습니다. 가설검정을 위해서는 먼저 모수를 예측하는 추정 과정이 필요하므로 먼저 통계적 추정과정에 대해 알아보겠습니다.

추정 과정에 대한 이해를 돕기 위해 총 5개의 개체로 이루어진 모집단을 생각해 보겠습니다. 모집단은 특정 제품군의 소비자 전체이고 각각의 호감도 값은 신규 출시 제품에 대한 7점 척도 응답이라고 해 보겠습니다. 우리는 표본을 추출해서 조사해보기 전까지는 모집단에 속하는 개체의 호감도를 알 수 없고 모집단의 평균도 알지 못합니다.

이제 동일한 확률로 복원추출을 통해 아이디 3번, 4번, 5번을 표본으로 얻었다면 표본평균 값은 (4+6+6)/3=5.3이 됩니다. 우리가 알고 있는 정보는 표본을 통해 얻은 표본평균 값이 전부이므로 표본평균 값을 모집단 평균으로 추정할 수밖에 없습니다. 이렇게 하나의 값으로 모수를 추측하는 것을 점추정이라고 합니다. 그런데 하나의 값으로 모수를 추론하는 점추정은 근본적인 문제가 있습니다. 모집단 정보의 일부인 표본의 정보를 이용해 추론하므로 표본으로 얻은 값이 관심 있는 모수와 정확히 일치할 가능성은 매우 낮다는 것이 그것입니다.  

 

                     

 

위 모집단을 근거로 가능한 표본평균의 분포(표본분포)를 구해보면 표본평균 값은 가능한 여러 가지 가능성 중 하나에 불과함을 알 수 있습니다. 우리는 표본평균의 평균이 모평균이라는 사실과 표본평균이 모평균을 중심으로 일정한 분포를 따른다는 사실은 알고 있지만 구체적인 모평균의 값은 알 수 없습니다. 구체적인 표본평균 값은 모평균과는 상당한 차이가 있을 가능성도 있습니다.

아래 예시 표본분포를 살펴보면 직관적으로 보더라도 모평균 5와는 다소 차이가 있어 보이는 표본평균 4, 4.3, 5.7, 6 중 하나의 표본이 추출될 확률이 32%에 육박하여 모평균에 대한 추론이 잘못될 가능성이 상당함을 알 수 있습니다. 그러므로 모집단 정보를 일부만 이용하는 표본조사 과정에 비추어 볼 때 일의적인 하나의 표본평균 값으로 모평균을 추론한다는 것은 매우 불합리한 방법일 수 있습니다.

우리는 표본추출을 반복할 경우 그 결과가 얼마나 신뢰할 수 있는지를 나타내는 신뢰수준과 표본추출을 반복함에 따라 모집단의 특성치(모평균)를 표본통계량(표본평균)이 얼마나 오차 없이 반영하는지를 나타내는 오차한계가 주어질 때, 최소 표본크기를 산정하는 방법에 대해 알아보았습니다. 다음 시간에 주어진 신뢰수준 하에서 우리가 관심 있는 모집단의 특성치(모평균)를 어떻게 추정할 것인지 좀 더 구체적으로 알아보겠습니다.

매우 낮다는 점이 그것입니다

31. 표본크기의 결정

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다!

                                            

 

 

'야행하는 리서치' 카테고리의 다른 글

36. 가설검정①  (0) 2017.08.18
35. 통계적 추정의 기본원리②  (0) 2017.08.02
33. 설문지의 순서배열  (0) 2017.07.20
32. 설문지 작성 방법  (0) 2017.07.17
31. 표본크기의 결정  (0) 2017.05.11
Posted by dooka
,

실제 설문조사에서 매번 일일이 가능한 표본의 경우의 수를 모두 계산해서 표본평균의 표본분포를 구성하고 이를 근거로 모집단의 특성을 추론한다면 매우 번거로운 일이 아닐 수 없습니다. 그런데, 일정한 조건을 충족하면 확률분포를 직접 다루지 않고도 모집단의 특성을 추론할 수 있는 방법이 있습니다.

동전의 앞면과 뒷면이 나올 확률이 각각 정확하게 0.5라고 가정해 보겠습니다. 동전을 던져서 앞면이 나오는 평균 횟수 즉 앞면이 나올 확률의 분포를 알아보는 실험을 해보겠습니다. 먼저 동전을 10번 던지는 실험을 실행하고, 다음으로 동전을 30번 던지는 실험을 실행해서 앞면이 나오는 횟수의 평균이 어떤 확률분포를 가지는지 관찰해 보았습니다. 표본크기가 10인 표본을 반복해서 추출하는 경우와 표본크기가 30인 표본을 반복해서 추출하는 경우의 표본평균을 비교한다고 생각해도 무방합니다.

 

동전을 던진 횟수가 10회, 표본크기가 10인 경우에 비해 동전을 던진 횟수가 30회, 표본크기가 30인 경우의 확률분포 형태가 달라졌음을 알 수 있습니다. 표본크기가 30인 경우에 자료가 모집단의 확률인 0.5를 중심으로 모이면서 좌우대칭인 모습을 보이고 있습니다.

이처럼 표본크기를 늘려가면서 표본추출을 반복하면 표본평균의 확률분포 즉 표본분포(sampling distribution)가 특정한 확률분포에 근사하게 되는데 이를 중심극한정리(central limit theorem)라고 합니다. 중심극한정리의 적용 조건이 되는 독립적이고 동일한 분포를 따르는 표본을 특히 확률표본이라고 합니다.

중심극한정리에 의하면 미지의 확률분포를 따르는, 평균이 μ이고 분산이 σ2인 모집단으로부터 확률적으로 독립인 표본을 추출했을 때, 표본크기 n이 증가할수록 표본평균은 평균이 μ이고 분산이 σ2/n인 정규분포에 근사하게 됩니다.

모분산은 자료의 제곱합을 개체수로 나누는 반면, 표본분산은 표본 자료의 제곱합을 (표본크기-1)로 나누어 구합니다. 표본분산을 표본크기가 아닌 (표본크기-1)로 나누어 구하는 이유는 (표본크기-1)로 나눈 표본분산의 기대값이 모분산과 일치하기 때문입니다. 분산을 제곱근한 값을 표준편차라고 하며 표준편차를 표본크기의 제곱근으로 나눈 값, 즉 표본평균의 분산을 제곱근한 값을 표준오차라고 합니다.

중심극한정리를 적용하기 위해서는 평균과 분산을 계산할 수 있어야 하므로 사칙연산을 적용할 수 없는 명목척도와 서열척도의 확률변수에는 중심극한정리를 직접 적용할 수는 없습니다.

하나의 확률변수가 표본에 포함될 지 여부에 관계없이 다른 확률변수가 포함될 확률이 변동하지 않는 경우 확률적으로 독립이라고 합니다. 그런데 확률적 독립이라는 개념은 직관적으로 이해하는 것보다 좀 더 엄격한 의미를 담고 있습니다. 확률적으로 독립이라고 하면 모든 가능한 경우에 표본으로 포함될 확률이 서로 무관해야 함을 뜻합니다. 표본크기 n인 표본을 구성하는 확률변수 X1, X2, ...., Xn이 확률적으로 독립이 되기 위해서는 X1과 X2, X1과 X2와X3 ,이런 식으로 X1, X2, ...., Xn까지 모든 가능한 조합이 확률적으로 독립이여야 합니다.

중심극한정리를 적용하기 위한 확률적 독립의 가정은 엄밀하게 보면 설문조사에서 관철되지 않습니다. 왜냐하면 설문조사에서 한번 조사대상이 된 응답자는 표본추출에서 제외하는 비복원추출이 일반적이기 때문입니다. 만약 3명으로 이루어진 모집단이 있고 표본으로 선택될 확률이 1/3이라고 할 때, 비복원추출을 적용하면 1/3의 확률로 최초 선택한 개체가 정해진 후 다음 개체가 추출될 확률은 1/2로 변경되므로 더 이상 확률적으로 독립이 아닙니다. 그럼에도 설문조사에서 중심극한정리를 적용할 수 있는 이유는 모집단에 비해 표본크기가 매우 작아 비복원추출을 하더라도 실제로는 표본으로 선택될 확률의 차이가 거의 없다고 볼 수 있는 경우가 많기 때문입니다. 2017년 1사분기 현재 서울시의 주민등록인구는 9,926,928명입니다. 이들 서울시의 주민등록인구를 대상으로 400명의 표본을 추출한다고 하면 서울시 주민등록인구 중 최초로 표본으로 선택될 확률은 1/9,926,928이고, 마지막 400번째 표본으로 선택될 확률은 1/(9,926,928-399)가 되므로 거의 동일한 확률로 보아도 무방할 것입니다.

중심극한정리의 유용성은 모집단의 확률분포와는 무관하게 표본평균의 확률분포-표본분포가 정규분포에 근사하기 때문에 보편적으로 모집단의 관심 있는 특성을 추론할 수 있다는 점에 있습니다. 정규분포의 형태는 아래와 같이 좌우대칭의 종모양을 이루고 있습니다.

아래 정규분포의 확률분포에서 함수 f(X)를 확률밀도함수라고 하는데, 정확하게 확률과 일치하는 개념은 아닙니다. 확률밀도함수의 값이 확률이 되는 것이 아니라 확률밀도함수의 면적이 확률입니다. 설문조사에서 특정한 값이 나올 가능성은 매우 낮다는 점을 생각해보면 확률을 특정한 값이 아닌 구간에 대응시키는 것이 보다 설득력이 있습니다.

 

                                        

                        

만약 표본평균이 중심극한정리에 의해 정규분포를 따른다면 표본평균이 모평균으로부터 1×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.683이 되고, 2×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.954, 3×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.997이 됩니다.

                                         

서로 다른 표본통계량이 서로 확률적으로 독립적이고 각각 근사적으로 정규분포를 따른다면 이들 표본통계량의 합 또는 차의 분포 역시 근사적으로 정규분포를 따르는 것으로 알려져 있습니다.이러한 정규분포의 성질은 두 모집단을 비교할 때 매우 유용합니다.

만약 표본평균이 독립적이고 동일한 분포를 따르는 표본으로부터 얻은 표본통계량이라면 표본평균을 모집단평균으로 차감하고 표본평균의 분산을 제곱근한 표준오차로 나누어주면 이 확률변수는 평균이 0이고 분산이 1인 정규분포를 근사적으로 따르게 됩니다. 특별히 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 하며, 서로 다른 평균과 분산으로 정의하는 다양한 정규분포를 따르는 확률변수들이라고 하더라도 해당 확률변수를 평균으로 차감하고 분산을 제곱근한 표준편차로 나눠 줄 경우 표준정규분포를 따르게 되므로 정규분포를 따르는 다양한 확률변수를 일의적으로 분석할 수 있는 길이 열리게 됩니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!

                                     

 

Posted by dooka
,

통계량과 통계량의 분포에 대한 이해는 표본오차와 표본크기의 결정뿐만 아니라 나중에 통계적 의사결정을 이해하기 위해서도 매우 중요합니다.

표본으로부터 얻어진 값이 반드시 모집단의 관심 있는 모수와 일치한다는 보장은 없으며 오히려 일치하지 않는 것이 일반적입니다. 표본조사로부터 얻어질 수 있는 모든 가능한 결과들의 집합을 표본공간이라고 하고, 확률변수는 표본공간을 정의역으로 하고 실수공간을 치역으로 하는 함수로 정의합니다. 표본통계량은 미지의 모수를 포함하지 않는 확률변수의 함수입니다. 표본통계량은 확률변수의 함수이므로 표본통계량 역시 확률변수입니다. 확률변수와 표본통계량의 개념을 이해하기 위해 아주 총3명으로 이루어진 모집단을 예로 들어 보겠습니다.

총 3명의 소비자로 이루어진 시장을 있으며 이들은 특정 제품에 대해 서로 다른 호감도를 가지고 있습니다. 이들 중 2명을 표본추출하여 전체 시장의 호감도를 알아보는 설문조사에서 확률표본추출을 적용한다면 가능한 표본은 다음과 같습니다. 괄호안의 수치는 호감도를 나타냅니다.

                           

사례에서 제품에 대한 호감도가 확률변수입니다. 모집단의 호감도는 정해진 숫자이지만 표본의 호감도는 어떤 표본이 추출되는가에 따라 달라지는 변수입니다. 표본에서 얻은 호감도의 평균 즉 표본평균이 표본통계량입니다. 설문조사에서 개별 응답자들이 특정 질문에 응답한 값들이 표본조사로부터 얻어질 수 있는 모든 가능한 결과들의 집합-표본공간에 대응되는 확률변수의 구체적인 실현값들이 됩니다.

여기에서 유념할 점은 개별 소비자가 표본에 포함될 확률이 다른 소비자가 표본에 포함될 확률에 영향을 미치지 않고 있으며 각각의 표본이 선택될 확률 역시 다른 표본이 선택될 확률과 무관하다는 것입니다.

가능한 확률변수의 값들에 대하여 각각의 값들에 대한 확률에 대응시킨 것을 확률분포라고 합니다. 확률변수 전체를 다루는 것은 비효율적이므로 우리는 확률변수에 포함된 정보를 요약한 표본통계량의 확률분포에 관심을 가지게 됩니다. 통계량의 대표적인 예는 바로 표본평균입니다. 표본평균과 같은 통계량의 확률분포를 표본분포(sampling distribution)라고 하며, 표본의 분포와는 구별합니다. 동일한 표본통계량이라고 하더라도 추출 표본에 따라 구체적인 표본통계량의 값은 달라질 수 밖에 없으며, 구체적인 표본통계량의 값이 모집단의 관심있는 특성을 얼마나 잘 반영하는지는 알 수 없습니다. 그러므로 표본분포 즉 통계량의 분포를 살펴봄으로써 관심 있는 모집단의 특성을 추론하여야 합니다.

사례에서의 표본평균에 각각의 확률을 대응시킨 확률분포는 아래와 같습니다. 개별 표본평균의 값은 모집단 평균과 일치하지 않지만 가능한 표본평균들의 평균은 모집단 평균이 됨을 알 수 있습니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!

                                                      

 

 

 

 

Posted by dooka
,