'신뢰수준'에 해당되는 글 2건

  1. 2017.08.02 35. 통계적 추정의 기본원리②
  2. 2017.05.08 30. 표본오차의 이해

 

34. 통계적 추정의 기본원리

통계적 추정에 대해 좀 더 자세히 알아보기 전에 우선 관련 개념을 아래와 같이 정리해 보았습니다.

         

 

관련 개념에 대한 이해를 바탕으로, 표본크기 결정을 위해 알아보았던 신뢰수준을 다시 한번 살펴보겠습니다. 표본크기 n인 표본이 평균이 이고 분산이 σ2인 모집단으로부터 얻어진 확률표본이고 표본크기가 충분히 크다면 중심극한정리를 적용할 수 있고 근사적으로 표본평균 는 평균이 이고 표본평균의 분산이 σ2/n인 정규분포를 따르게 됩니다. 정규분포의 성질에 따라 근사적으로 Z는 평균이 0이고 분산이 1인 표준정규분포를 따릅니다. 아래 수식에서 A는 asymptotic의 약자로 근사한다는 의미이고 N은 정규분포를 의미합니다.

일반적으로 모집단의 평균을 모르는 상황이라면 모분산 역시 알 수 없다고 보는 것이 상식적이므로 모분산 대신 표본분산을 사용하게 됩니다. 표본분산 s2을 사용하는 이유는 s2의 평균이 모분산이 되고 표본크기가 증가할수록 모분산에 근사하기 때문입니다. 표본분산의 분모가 표본크기가 아닌 표본크기에서 1을 차감한 수를 사용하는 이유는 표본평균을 구하는데 표본의 정보를 한번 사용하였기 때문입니다. 표본평균이 정해진 상태에서는 n-1번째 개체의 응답이 결정되면 n번째 개체의 응답은 자동으로 결정됩니다.

모분산이 아닌 표본분산을 사용한 경우에도 독립적이고 동일한 분포를 따르는 확률표본에서 표본크기가 증가할 때 Z는 여전히 근사적으로 평균이 0이고 분산이 1인 표준정규분포를 따릅니다.

                                                         

                                                         

신뢰수준의 정의에 따라 P( -Z0.025 ≦ Z ≦ Z0.025 )=P( -1.96 ≦ Z ≦ 1.96 )=0.95가 성립하고, 확률을 나타내는 함수 P(  ) 괄호안의 식을 모평균에 대하여 정리하면 아래와 같은 수식을 얻게 되고 이를 모평균 의 95% 신뢰구간이라고 합니다.

                                        

모평균 μ의 95% 신뢰구간 : 

                                           

관심 있는 모수의 참값이 포함하고 있을 것으로 예상하는 구간을 신뢰구간이라고 하며, 신뢰구간이 관심 있는 모수의 참값을 포함할 것으로 신뢰하는 확률을 신뢰수준이라고 부르게 됩니다. 오차한계를 폭넓게 허용하면 신뢰수준이 증가하는 것처럼 신뢰구간의 폭을 넓히면 신뢰수준 역시 높아지게 됩니다. 신뢰수준을 100%라고 한다면 -무한대에서 +무한대까지의 값이 신뢰구간이 되므로 유의미한 정보를 제공할 수 없기 때문에 수용할 만한 신뢰수준을 정한 후에 신뢰구간을 추정하게 됩니다.

수리적으로 평균과 동일한 개념인 모비율의 추정에 대해서도 알아보겠습니다. 표본크기가 크고 모비율이 작지 않은 경우 확률표본을 추출하면 중심극한정리에 의해 표본비율더블클릭을 하시면 수식을 수정할 수 있습니다.은 정규분포에 근사합니다. 신뢰수준 95% 하에서 가상의 도시의 시장 출마 후보의 지지율을 추정하기 위해 표본크기 n의 확률표본을 추출한 경우를 생각해 보겠습니다. 후보를 지지하는 응답자의 수를 합한 변수를 X로 정의할 때 =X/n은 표본평균이며 곧 표본비율 즉 표본의 지지율이 됨을 알 수 있습니다. 동일하고 독립적인 분포를 따르는 표본에서 표본수가 충분히 크고 지지율이 0과 1에 가까운 극단적인 값을 가지지 않는다면 표본비율은 평균이 p이고 분산은 p(1-p)/n인 정규분포에 근사합니다. 그런데 p(1-p)/n은 사전적으로 알 수 없으므로 표본비율을 사용한 추정량을 사용하면, 표본크기가 증가할 때 표본비율의 분포는 여전히 정규분포에 근사하게 됩니다.

모비율 즉 모집단의 지지율은 사전적으로 알 수 없으므로 모비율 대신 표본비율을 그 추정치로 사용하더라도 표본크기가 증가하면 표본비율은 모비율에 근사하므로 여전히 표본비율은 근사적으로 평균이 모비율 p이고 분산은 표본비율(1-표본비율)/n인 정균분포를 따릅니다.

                                                                  

이를 근거로 신뢰수준을 계산하고 이 계산식에서 95% 신뢰구간을 구하면 다음과 같습니다.  

모비율의 95% 신뢰구간 :

                                               

모평균에 대한 구간추정을 예로 들어 신뢰구간의 의미를 좀 더 명확하게 파악해 보겠습니다. 모평균에 대한 95% 신뢰구간이라고 하면, 표본추출을 100번 반복할 경우 100개의 신뢰구간 중 모평균 참값을 포함하는 구간이 최소한 95개는 된다는 의미입니다. 이것은 사실을 표본추출을 100번 반복할 때 표본평균과 모집단의 차이가 (1.96⨯표준오차) 이내인 경우가 적어도 95번은 된다는 언급과 완전히 동일합니다. 여기서 표준오차란 표본평균의 분산을 제곱근한 값을 말합니다. 그러므로 95% 신뢰구간에서 신뢰수준 95%는 그 특정한 구간이 미지의 모평균을 포함할 확률이 95%라는 의미가 아닙니다.

         

이러한 신뢰구간의 의미는 설문조사 결과를 소비하는 사람의 입장에서 조금은 기대했던 내용과 거리가 멀 수도 있습니다. 그러나 모집단의 일부인 표본을 반복적으로 추출하는 설문조사과정을 이해한다면 신뢰구간이 의미하는 내용은 필연적입니다. 좋은 신뢰구간이라면 가급적 구간의 길이가 짧고, 신뢰수준이 높은 신뢰구간이 될 것이나 주어진 표본크기 하에서는 신뢰수준을 높이고자 한다면 신뢰구간의 길이가 넓어져야 하며, 신뢰구간의 길이를 줄이고자 한다면 신뢰수준이 낮아질 수밖에 없습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 데이터테일즈가 성실하게 답변 드리겠습니다!

                                               

 

 

'야행하는 리서치' 카테고리의 다른 글

37. 가설검정②  (0) 2017.08.29
36. 가설검정①  (0) 2017.08.18
34. 통계적 추정의 기본원리①  (0) 2017.07.26
33. 설문지의 순서배열  (0) 2017.07.20
32. 설문지 작성 방법  (0) 2017.07.17
Posted by dooka
,

한번의 표본추출을 통해 얻어지는 표본통계량의 값과 관심있는 모집단의 특성치와의 차이를 표본오차(sampling error)라고 합니다. 표본오차는 표본통계량의 값-모집단의 특성치로 정의할 수 있으며 표본통계량이 표본평균인 경우 표본오차는 표본평균의 값-모평균으로 정의할 수 있습니다. 모집단의 일부를 표본으로 추출해 구한 표본평균은 모l평균과 일치하지 않는 것이 일반적입니다. 이처럼 표본을 통해 모집단을 추론하는 과정에서 발생하는 필연적인 오차가 표본오차입니다.

 

표본오차를 표본평균과 모평균의 차이라고 한다면, 우리는 모평균을 모르고 있으므로 한 번의 표본추출에서의 표본오차가 구체적으로 어느 정도인지 알 수 없습니다. 그러나, 일정 표본크기 이상의 독립적이고 동일한 분포를 따르는 확률표본을 반복적으로 추출한다고 하면 중심극한정리에 의해 표본평균은 모평균을 중심으로 정규분포를 따르게 됨을 알고 있습니다.

 

그러므로 설문조사의 기획자는 개별 표본의 표본오차는 알 수 없지만 표본크기와 신뢰수준이 주어진 경우 반복적으로 표본추출을 했을 때 표본통계량과 최대 변동 즉 오차한계(정도, precision)는 관리할 수 있게 됩니다. 신뢰수준이란 표본추출을 반복할 경우 그 결과를 평균적으로 얼마나 신뢰할 수 있는지를 나타내는 개념입니다. 예를 들어 신뢰수준이 95%라고 하면 표본추출을 반복할 경우 적어도 그 중 95%의 표본은 관심 있는 모집단 특성치에 대한 정보를 포함할 것이라고 생각할 수 있습니다.

 

표본크기가 정해져 있는 경우에는 오차한계를 줄이면서 동시에 신뢰수준을 높일 수는 없습니다. 왜냐하면 신뢰수준을 높이기 위해서는 허용가능한 표본평균의 변동폭을 가급적 넓게 허용해서 표본평균의 가능한 변동 범위 내에 모평균을 포함할 가능성을 높여야 하는데 이는 결국 더 큰 오차한계를 허용해야 한다는 의미이기 때문입니다.

           

                          

            

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!  

                                            

 

 

Posted by dooka
,