'정규분포'에 해당되는 글 3건

  1. 2017.09.06 40. 정규분포와 t분포
  2. 2017.05.11 31. 표본크기의 결정
  3. 2017.05.03 29. 표본분포와 중심극한정리

정규분포의 표본분포 중 하나인 t-본포에 대해 알아보겠습니다. 통계분석 프로그램에서 가설검정을 흔히 t-검정이라고 지칭하고 있습니다. 그렇게 명명하는 이유는 정규분포와 t-분포 사이에 밀접한 관계가 있기 때문입니다. 만약 모집단 분포가 정확하게 정규분포를 따른다고 하면 표본평균을 표준화한 변수 Z에서 모집단의 분산을 제곱근한 표준편차 대신 표본의 표준편차를 대입한 새로운 변수 T는 자유도 n-1인 t분포를 따릅니다.

t분포는 정규분포와 마찬가지로 좌우대칭의 형태를 이루고 있으나 정규분포에 비해 극단치에 민감하여 정규분포에 비해 두꺼운 꼬리를 가지고 있습니다. 또한, t분포는 기본적으로 정규분포 모집단에서 표본크기가 작은 경우에 적용하기 위한 분포로서 표본크기가 증가하면 t분포는 정규분포에 근사합니다. t-분포는 정규분포 모집단의 표본분포이므로 t분포를 적용하기 위해서는 표본의 확률변수들의 분포가 정규분포에 적합해야 합니다.

우리는 앞에서 확률표본에서 표본크기가 증가하면 중심극한정리에 의해 근사적으로 Z는 평균이 0이고 분산이 1인 표준정규분포를 따름을 알았습니다. 그런데 표본크기가 증가하면 표본의 표준편차가 모집단의 표준편차에 근사하므로 모집단의 표준편차 대신 표본의 표준편차를 대입한 변수 역시 근사적으로 표준정규분포를 따르게 됩니다. 아래에서 A는 aymptotic의 약자로 근사적으로 해당 분포를 따른다는 의미입니다.

정규분포 모집단에서 표본크기가 작은 경우에는 t분포를 따르게 되고 표본크기가 증가하게 되면 t분포는 정규분포에 근사하므로 통계분석 프로그램에서는 구태여 정규분포에 근거한 검정과 t분포에 근거한 검정을 구분할 필요가 없습니다. 시장조사론 교재에서도 별 다른 구분 없이 t검정으로 통칭하는 경우가 많습니다. 물론 통계학 교재에서는 두 가지 경우를 준별하고 있습니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다. 

                                                     

 

 

Posted by dooka
,

주어진 신뢰수준 하에서 표본크기가 주어지면 오차한계를 계산할 수 있으며 최대허용오차를 결정하고 나면 필요한 표본크기를 알 수 있습니다. 이제 오차한계를 이용해 표본크기를 구해 보겠습니다. 구체적인 표본크기 결정 과정은 아래와 같습니다.

 

 

비복원추출일 경우 허용오차한계를 알기 위해서는 모집단의 크기를 알아야 합니다. 그러나, 모집단의 크기가 표본에 비해 매우 큰 경우에는 복원추출과 비복원추출의 차이가 거의 없게 되기 때문에 모집단의 크기를 아는 것의 의미는 크게 줄어들게 됩니다.

목표 표본크기는 오차한계와 신뢰수준을 결정함으로써 결정합니다. 오차한계는 표본통계량(표본평균)과 모집단 특성치(모평균)의 최대허용오차를 의미하며 표본추출을 반복함에 따라 표본통계량이 관심 있는 모집단의 특성치를 얼마나 오차없이 반영하는지를 나타내는 개념입니다. 신뢰수준은 표본추출을 반복할 경우 그 결과를 평균적으로 얼마나 신뢰할 수 있는지 나타냅니다. 오차한계가 작을수록 모집단 특성치에 대한 유용한 정보를 제공하지만 오차한계가 작아지면 모집단에 대한 추론이 틀릴 가능성도 높아지게 됩니다. 그러므로 표본조사의 결과에 대해 평균적으로 어느 정도의 신뢰수준을 확보할 지 결정한 후에 허용 오차한계를 충족하는 최소한의 표본크기를 찾는 방식으로 표본크기를 결정합니다. 오차한계는 비율개념으로 볼 때 10%를 넘지 않는 것이 좋으며, 표본조사의 결과 해석이 의사결정의 품질을 하락시키지 않기 위해서는 신뢰수준을 90% 이하로 낮추는 것은 바람직하지 않습니다. 일반적으로 신뢰수준은 95%가 통용되고 있습니다.

신뢰수준 95%를 가정했을 때 허용가능한 표본오차의 한계를 표본평균-모평균=d라고 하면 오차한계=표본평균-모평균이 d보다 같거나 작을 확률은 다음과 같습니다.

   

표본크기 n인 표본이 평균이 μ이고 분산이 σ2인 모집단으로부터 얻어진 확률표본이고 표본크기가 충분히 크다면 중심극한정리를 적용할 수 있고 근사적으로 표본평균 는 평균이 이고 표본평균의 분산이 σ2/n인 정규분포를 따르게 됩니다. 그러므로, 정규분포의 성질에 따라 아래 Z는 근사적으로  평균이 0이고 분산이 1인 표준정규분포를 따릅니다.   

그러므로, 다음이 성립하고 표준정규분포에서 면적이 0.95 즉 신뢰수준이 0.95인 표준정규분포변수의 값을 계산하여 비교하면 허용오차한계에 대응하는 최소 표본크기를 계산할 수 있습니다.

오차한계는 주어진 신뢰수준 하에서 좌우대칭이 되도록 설정합니다. 왜냐하면 면적으로 확률을 계산하므로 비대칭으로 오차한계를 설정하게 되면 동일한 확률에 대해 상대적으로 큰 오차를 허용할 수 밖에 없기 때문입니다. 좌우대칭 형태로 오차한계를 설정하기 때문에 신뢰수준 95%에 해당하는 표준정규분포 변수 값을 구하기 위해서는 P(Z≦Z0.025)-P(Z≦-Z0.025)=97.5%-2.5% =95%를 만족하는 Z0.025값을 찾으면 됩니다. Z0.025는 표준정규분포에서 Z0.025보다 같거나 작을 확률이 100%-2.5%=97.5%을 만족하는 표준정규분포 변수의 값을 의미합니다. 이 변수값의 표기를 Z0.975로 하지 않고 Z0.025로 표기하는 이유는 일반적인 표기이기도 하거니와, 나중에 가설검정을 위해서도 편리하기 때문입니다.

 

 

이제 오픈소스 통계프로그램인 R에서 Z0.025와 -Z0.025의 값을 구해 보겠습니다. R에서 표준정규분포 확률에 해당하는 변수의 값을 계산하는 명령어는 ‘qnorm(확률)’입니다. 입력해야 할 확률은 각각 97.5%와 2.5%이므로 R에서 qnorm 명령어를 실행하면 Z0.025=1.96이 됩니다. 정규분포는 좌우대칭을 이루고 있으므로 Z1-0.025=-Z0.025=-1.96이 됨을 확인할 수 있습니다.

> qnorm(0.975)

[1] 1.959964

> qnorm(0.025)

[1] -1.959964

 

신뢰수준 95% 하에서 최대 허용오차에 대응하는 최소 필요 표본크기를 알기 위해  을 표본크기 n에 대해 정리해보면 표본크기 n은 최소한 보다는 크거나 같아야 함을 알 수 있습니다. 아래 표본크기의 산출공식

은 모집단의 크기가 표본크기에 비해 매우 커서 복원추출과 거의 차이가 없는 경우 적용할 수 있는 공식입니다.

 

 

 

 

예를 들어 편의점을 통해 새로운 간편식품 판매를 고려하고 있는 기업이 경쟁 제품 구매자를 대상으로 신제품 구매의향 가격을 조사한다고 생각해보겠습니다. 선행조사를 통해 표준편차 σ는 560으로 알려져 있고 구매의향 가격의 허용오차를 100원 이내로 제어하고 싶다면 필요한 최소한 표본크기가 121명 이상인 표본을 추출해야 합니다.

 

우리가 흔히 접하는 비율 역시 수리적으로는 평균이므로 중심극한정리를 적용해 필요한 표본크기를 알아 볼 수 있습니다. 어떤 도시에서 특정 후보에 대한 지지율이 60%가 되는지 알아보기 위해 표본조사를 실시할 경우 신뢰수준 95% 하에서 지지율의 허용 오차한계를 5% 이내로 제어하고 싶다면 어느 정도의 표본이 필요한지 알아보겠습니다.

우선 지지율 은 평균이 0.6 이고 분산이 0.6(1-0.6)/n인 분포를 따르고 확률표본의 조건을 충족할 경우 중심극한정리에 의해 근사적으로 정규분포를 따르게 됩니다.

 

표본크기를 기준으로 최대허용오차를 정리하면 최소 369명의 표본이 필요함을 알 수 있습니다.

이렇게 목표 표본크기를 구했다면 응답률을 고려해 표본추출 작업을 수행해야 합니다. 예를 들어 그간의 경험을 통해 응답률이 25% 내외라는 것을 알고 있고 최종 목표 표본크기가 100명이라면 표본추출 시 100/25%=400명 내외의 표본을 추출해야 합니다.

지금까지 살펴본 표본크기 결정방법은 기본적으로 하나의 질문, 하나의 변수를 기준으로 한 방법입니다. 그러므로 실제 설문조사에서는 꼭 필요하거나 응답 대상자 분류의 기준이 되는 변수를 기준으로 표본크기를 정하게 됩니다. 만약 시장점유율 10%인 양문형 냉장고 브랜드 A를 포함한 양문형 냉장고 카테고리 소비자 대상 설문조사를 기획할 경우 표본크기가 100명이라면 A 브랜드 구매자는 10명에 불과합니다. 또한 연령별 행태의 차이를 보기 위해 연령별로 자료를 구분해 보면 연령별 사례수는 더욱 감소합니다.

그래서 목표시장인 25세~35세 여성의 A 브랜드 구매 행태를 정밀하게 보기 위해 25~29세 50명, 30~35세 50명, 총 100명의 A 브랜드 구매자를 표본에 포함시키기로 했다면 전체 목표 표본크기는 1,000명이 되고 응답률이 25%라면 총 4,000명을 표본추출해야 합니다. 만약 4,000명의 표본크기가 필요한 정보와 확보 예산에 비해 너무 크다고 판단한다면 전체 양문형 냉장고 시장에 대해서는 400명 내외의 표본으로 전체 시장을 살펴보고 400명 중에 포함된 A 브랜드 구매자 40명 외에 A 브랜드 구매자 60명만을 추가로 조사해 A 브랜드에 대해서는 40명+60명=100명을 대상으로 A 브랜드의 세부사항에 대해 알아 볼 수도 있습니다. 이렇게 특정 집단에 속하는 응답자를 추가로 조사할 경우, 추가 조사를 본 조사와 분리하여 진행해야 합니다. 예를 들어 오프라인에서 일대일조사를 통해 본 조사에 더하여 추가 조사를 실시할 경우 담당 조사원이나 조사 시기를 분리하지 않으면 중요한 지표가 과대 추정되거나 과소 추정될 수 있습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!  

                                                     

 

 

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

33. 설문지의 순서배열  (0) 2017.07.20
32. 설문지 작성 방법  (0) 2017.07.17
30. 표본오차의 이해  (0) 2017.05.08
29. 표본분포와 중심극한정리  (0) 2017.05.03
28. 표본조사와 표본통계량  (0) 2017.05.03
Posted by dooka
,

실제 설문조사에서 매번 일일이 가능한 표본의 경우의 수를 모두 계산해서 표본평균의 표본분포를 구성하고 이를 근거로 모집단의 특성을 추론한다면 매우 번거로운 일이 아닐 수 없습니다. 그런데, 일정한 조건을 충족하면 확률분포를 직접 다루지 않고도 모집단의 특성을 추론할 수 있는 방법이 있습니다.

동전의 앞면과 뒷면이 나올 확률이 각각 정확하게 0.5라고 가정해 보겠습니다. 동전을 던져서 앞면이 나오는 평균 횟수 즉 앞면이 나올 확률의 분포를 알아보는 실험을 해보겠습니다. 먼저 동전을 10번 던지는 실험을 실행하고, 다음으로 동전을 30번 던지는 실험을 실행해서 앞면이 나오는 횟수의 평균이 어떤 확률분포를 가지는지 관찰해 보았습니다. 표본크기가 10인 표본을 반복해서 추출하는 경우와 표본크기가 30인 표본을 반복해서 추출하는 경우의 표본평균을 비교한다고 생각해도 무방합니다.

 

동전을 던진 횟수가 10회, 표본크기가 10인 경우에 비해 동전을 던진 횟수가 30회, 표본크기가 30인 경우의 확률분포 형태가 달라졌음을 알 수 있습니다. 표본크기가 30인 경우에 자료가 모집단의 확률인 0.5를 중심으로 모이면서 좌우대칭인 모습을 보이고 있습니다.

이처럼 표본크기를 늘려가면서 표본추출을 반복하면 표본평균의 확률분포 즉 표본분포(sampling distribution)가 특정한 확률분포에 근사하게 되는데 이를 중심극한정리(central limit theorem)라고 합니다. 중심극한정리의 적용 조건이 되는 독립적이고 동일한 분포를 따르는 표본을 특히 확률표본이라고 합니다.

중심극한정리에 의하면 미지의 확률분포를 따르는, 평균이 μ이고 분산이 σ2인 모집단으로부터 확률적으로 독립인 표본을 추출했을 때, 표본크기 n이 증가할수록 표본평균은 평균이 μ이고 분산이 σ2/n인 정규분포에 근사하게 됩니다.

모분산은 자료의 제곱합을 개체수로 나누는 반면, 표본분산은 표본 자료의 제곱합을 (표본크기-1)로 나누어 구합니다. 표본분산을 표본크기가 아닌 (표본크기-1)로 나누어 구하는 이유는 (표본크기-1)로 나눈 표본분산의 기대값이 모분산과 일치하기 때문입니다. 분산을 제곱근한 값을 표준편차라고 하며 표준편차를 표본크기의 제곱근으로 나눈 값, 즉 표본평균의 분산을 제곱근한 값을 표준오차라고 합니다.

중심극한정리를 적용하기 위해서는 평균과 분산을 계산할 수 있어야 하므로 사칙연산을 적용할 수 없는 명목척도와 서열척도의 확률변수에는 중심극한정리를 직접 적용할 수는 없습니다.

하나의 확률변수가 표본에 포함될 지 여부에 관계없이 다른 확률변수가 포함될 확률이 변동하지 않는 경우 확률적으로 독립이라고 합니다. 그런데 확률적 독립이라는 개념은 직관적으로 이해하는 것보다 좀 더 엄격한 의미를 담고 있습니다. 확률적으로 독립이라고 하면 모든 가능한 경우에 표본으로 포함될 확률이 서로 무관해야 함을 뜻합니다. 표본크기 n인 표본을 구성하는 확률변수 X1, X2, ...., Xn이 확률적으로 독립이 되기 위해서는 X1과 X2, X1과 X2와X3 ,이런 식으로 X1, X2, ...., Xn까지 모든 가능한 조합이 확률적으로 독립이여야 합니다.

중심극한정리를 적용하기 위한 확률적 독립의 가정은 엄밀하게 보면 설문조사에서 관철되지 않습니다. 왜냐하면 설문조사에서 한번 조사대상이 된 응답자는 표본추출에서 제외하는 비복원추출이 일반적이기 때문입니다. 만약 3명으로 이루어진 모집단이 있고 표본으로 선택될 확률이 1/3이라고 할 때, 비복원추출을 적용하면 1/3의 확률로 최초 선택한 개체가 정해진 후 다음 개체가 추출될 확률은 1/2로 변경되므로 더 이상 확률적으로 독립이 아닙니다. 그럼에도 설문조사에서 중심극한정리를 적용할 수 있는 이유는 모집단에 비해 표본크기가 매우 작아 비복원추출을 하더라도 실제로는 표본으로 선택될 확률의 차이가 거의 없다고 볼 수 있는 경우가 많기 때문입니다. 2017년 1사분기 현재 서울시의 주민등록인구는 9,926,928명입니다. 이들 서울시의 주민등록인구를 대상으로 400명의 표본을 추출한다고 하면 서울시 주민등록인구 중 최초로 표본으로 선택될 확률은 1/9,926,928이고, 마지막 400번째 표본으로 선택될 확률은 1/(9,926,928-399)가 되므로 거의 동일한 확률로 보아도 무방할 것입니다.

중심극한정리의 유용성은 모집단의 확률분포와는 무관하게 표본평균의 확률분포-표본분포가 정규분포에 근사하기 때문에 보편적으로 모집단의 관심 있는 특성을 추론할 수 있다는 점에 있습니다. 정규분포의 형태는 아래와 같이 좌우대칭의 종모양을 이루고 있습니다.

아래 정규분포의 확률분포에서 함수 f(X)를 확률밀도함수라고 하는데, 정확하게 확률과 일치하는 개념은 아닙니다. 확률밀도함수의 값이 확률이 되는 것이 아니라 확률밀도함수의 면적이 확률입니다. 설문조사에서 특정한 값이 나올 가능성은 매우 낮다는 점을 생각해보면 확률을 특정한 값이 아닌 구간에 대응시키는 것이 보다 설득력이 있습니다.

 

                                        

                        

만약 표본평균이 중심극한정리에 의해 정규분포를 따른다면 표본평균이 모평균으로부터 1×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.683이 되고, 2×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.954, 3×표본평균의 분산만큼의 거리 이내에 속할 확률은 0.997이 됩니다.

                                         

서로 다른 표본통계량이 서로 확률적으로 독립적이고 각각 근사적으로 정규분포를 따른다면 이들 표본통계량의 합 또는 차의 분포 역시 근사적으로 정규분포를 따르는 것으로 알려져 있습니다.이러한 정규분포의 성질은 두 모집단을 비교할 때 매우 유용합니다.

만약 표본평균이 독립적이고 동일한 분포를 따르는 표본으로부터 얻은 표본통계량이라면 표본평균을 모집단평균으로 차감하고 표본평균의 분산을 제곱근한 표준오차로 나누어주면 이 확률변수는 평균이 0이고 분산이 1인 정규분포를 근사적으로 따르게 됩니다. 특별히 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 하며, 서로 다른 평균과 분산으로 정의하는 다양한 정규분포를 따르는 확률변수들이라고 하더라도 해당 확률변수를 평균으로 차감하고 분산을 제곱근한 표준편차로 나눠 줄 경우 표준정규분포를 따르게 되므로 정규분포를 따르는 다양한 확률변수를 일의적으로 분석할 수 있는 길이 열리게 됩니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변드리겠습니다!

                                     

 

Posted by dooka
,