41. p-value

야행하는 리서치 2017. 9. 11. 09:00

귀무가설의 채택 여부를 결정하는 기준으로 통계분석프로그램에서 흔히 제시되는 값으로p-value가 입니다. p-value는 유의확률(significance probability)라고도 하는데, p-value는 검정통계량의 결과값에 대해 귀무가설을 기각할 수 있는 최소한의 유의수준을 말합니다. 만약 보다 작은 유의수준으로 귀무가설을 기각할 수 있다면 검정통계량의 결과값은 귀무가설 하에서 발생가능성이 보다 희박한 사건이 될 것이므로 p-value 값이 작을수록 대립가설에 대한 보다 강력한 증거가 됩니다. 즉 p-value는 설문조사의 결과가 대립가설을 반대하는 입증정도를 나타냅니다.

이미 주어진 유의수준 하에서 기각역을 계산할 수 있음에도 p-value를 제시하는 이유는 표본크기가 커질수록 표본의 표준편차 즉 표준오차가 작아지므로 미세한 차이도 구분이 가능해지고 실제 귀무가설이 참이건 거짓이건 상관없이 대부분의 경우에 귀무가설을 기각할 수 있기 때문입니다. 이러한 문제를 해결하기 위해 획일적인 유의수준을 제시하지 않고 의사결정자가 의사결정에 따른 오류 가능성을 어느 정도 받아 들이지에 따라 스스로 귀무가설의 기각여부를 판단할 수 있도록 p-value를 제시합니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

                                                     

 

 

Posted by dooka
,

2011문제 2추정된 회귀모형에서 독립변수와 종속변수의 관계를 설명하고 R제곱의 의미와 표준화회귀계수 beta에 내포한 의미에 대하여 설명하시오.(10)

회귀분석은 독립변수와 종속변수들간의 함수적 관련성을 규명하기 위해 수학적 모형을 가정하고 이 모형을 측정한 변수들의 자료로부터 추정하는 분석방법으로 독립변수와 종속변수들간의 선형적 관계를 규명하여 자료의 구조를 파악하는 것이 그 목적임.

R제곱은 결정계수라고도 하며 독립변수의 종속변수에 대한 설명력의 크기를 나타내는 척도임. 다중회귀분석에서 독립변수의 수가 증가하게 됨에 따라 결정계수R 제곱의 값은 높아지게 됨. 이러한 문제점을 해결하기 위해 각각의 제곱합에 자유도를 나누어 사용하는 수정결정계수를 활용하기도 함

비표준화회귀계수를 독립변수의 종속변수에 대한 영향력의 지표로 사용하는 경우 독립변수의 측정척도에 따라 불안전성을 보이며 특히 다중회귀모형에 심각한 문제를 야기함. 이를 해소하기 위해 독립변수와 종속변수 모두 표준화하여 회귀계수를 구하게 되면 이를 표준화회귀계수 beta라고 하게 됨.

 

2015문제 2 S 레스토랑은 지난 2년간 일별 매출액 자료 등을 이용하여 다음의 회귀식을 추정하였다.

  yj = 70-12D1j+25D2j+35D3j+2xij

   yj : 추정된 일별 매출

    D1 : 여름이면 1, 그 외에는 0 D2 : 가을이면 1, 그 외에는 0

    D3 : 겨울이면 1, 그 외에는 0 Xij : 일별 신문 광고비(단위 : 백만원)

 

다음 각 물음에 답하시오. (30)

 

(1) 위 추정 회귀식에 의거하여 조사목적을 추론하고, 회귀식을 해석하시오. (10)

일별신문광고비와 일별매출과의 선형적 관계를 규명하는 것이 목적임. 이때 매출은 계절적 주기를 가지고 있어 이를 모형에 반영하기 위해 가변수를 활용하였음. 가변수를 이용해 계절적 변동요인을 반영하지 않으면 광고비의 영향이 과대추정되는 문제가 발생할 것임.

 

(2) 회귀식의 추정에 사용된 독립변수와 종속변수를 제시하고, 각 변수의 척도 형태를 제시하시오. (10)

 회귀모형의 독립변수에 질적변수의 반영이 불가피한 경우 가변수를 활용하게 됨. 문제에서 독립변수는 광고비와 계절구분이며, 종속변수는 매출. 광고비와 매출은 연속형 변수인 반면, 계절구분변수는 범주형임.

 

(3) 위에서 추정된 회귀식을 기준으로 다음 물음에 각각 답하시오. (10)

  . 위 매장의 겨울 매출액은 봄과 얼마나 차이가 나는가?

  겨울 매출 봄 매출 = 70+35+2x -70-2x=35

   . 위 매장의 가을 매출액은 여름과 얼마나 차이가 나는가?

 가을 매출 여름 매출 = 70+25+2x -70+12-2x=37



2014문제 1 다음은 SPSS를 활용한 마케팅 분석기법으로 다중회귀분석의 출력결과이다. 다음의 질문에 답하시오.


1) 이 자료의 조사목적은 무엇이며, 독립변수와 종속변수는 각각 무엇인지 설명하시오.(7)

  서비스 수준과 품질 수준이 매출에 미치는 영향을 파악하기 위한 회귀분석모형. 독립변수는 서비스 수준과 품질 수준. 종속변수는 매출임.

 

(2) 이 자료 중 각 변수의 회귀계수의 유의확률은 어떠한지 설명하고, 이러한 유의확률이

어떤 통계적 의미를 갖는지 설명하시오. (허용유의수준 : 0.05) (4)

 품질수준점수의 유의확률은 0.000. 서비스수준점수의 유의확률은 0.005. 유의확률은 검정통계량의 관측값에 대하여 귀무가설을 기각할 수 있는 최소의 유의수준. 문제에서 각 변수의 회귀계수의 유의확률이 모두 허용유의수준보다 작은 값을 가지므로 두 독립변수 모두 매출 수준에 유의미한 영향을 미치고 있는 것으로 판단할 수 있음.

 

3) 독립변수 중 어느 변수가 더 높은 영향력을 가지며, 이러한 판단근거는 무엇인지 설명하시오. (5)

 

회귀계수를 비교해 보면, 품질수준의 영향력이 월등히 높은 것으로 해석할 수 있음. 단위의 영향을 고려하여 표준화회귀계수를 검토한 경우에도 품질수준의 영향력이 더 높은 것으로 나타남. 

 

(4) 회귀방정식을 도출하시오.(9)

매출액= 0.535 + 0.976 x 품질수준 + 0.251 x 서비스수준

 

(5) 만약 내년에 이 점포의 품질수준이 4, 서비스 수준이 5점이 될 경우 점포  예상매출액(금액단위 :억원)은 얼마인지 산출하시오.(5)

매출액= 0.535 + 0.976 x 4+ 0.251 x 5 = 5.694억원



2013문제 4 다중회귀분석에서 다중공선성의 개념을 설명하고, 통계적으로 다중공선성을 진단하는 2가지 방법에 대해 설명하시오. (10)

다중공선성은 3개 이상의 독립변수들간의 강한 선형관계를 보이는 현상으로 회귀계수의 계산을 불가능하게 만들거나 계산이 가능하더라도 회귀계수의 표준오차를 크게 부풀려 정확한 검정을 할 수 없게 함. 흔히 다음과 같은 경우 다중공선성이 있는 것으로 진단하게 됨.

독립변수간의 상관관계가 독립변수와 종속변수간의 상관관계보다 높은 경우.

회귀계수의 표준오차 값이 매우 큰 경우.

독립변수가 추가되거나 삭제되었을 때 회귀계수의 변화가 큰 경우.

일부 사례의 포함이나 배제와 같은 자료의 미미한 변화에도 회귀계수에 큰 변화를 보이는 경우 

회귀계수의 부호가 이론적으로 예측한 것과 반대로 나타나는 경우.

표준화회귀계수가 이론적으로 불가능한 값인 1.0보다 크거나 -1.0보다 작게 나타나는 경우

그 외 잔여분산과 고유근 분석을 통해 다중공선성 여부를 탐색함.

 

 

<회귀분석 핵심정리>

 

회귀분석 기출 문제중에 다중공선성이 출제된 바 있습니다. 다중공선성을 포함하여 회귀분석의 기본가정에 흠결이 있을 경우 발생가능한 문제는 아래와 같이 정리할 수 있습니다.


Posted by dooka
,

2012문제 1다음 물음에 대하여 논하시오.(30)

 

 

(1) Z검정(Z-test)t검정(t-test)의 차이점

 

정규분포 모집단을 가정할 경우 평균에 대한 Z검정은 모분산이 알려져 있을 때 적용함. 표본분산을 검정통계량에 사용하면 t검정 절차를

따르게 됨.  Z검정은 표본크기가 크고 중심극한정리를 적용할 수 있을 경우에는 모집단의 분포에 관계없이 활용할 수 있으나,

t검정의 경우에는 정규분포모집단을 가정하고 있다는 점에서 차이가 있음.

표본크기가 커질수록 t분포는 정규분포에 근사하므로 실무적으로는 t검정을 주로 활용하고 있음.

 

(2) t검정(t-test)와 일원분산분석(one-way ANOVA)의 차이점

두 집단의 평균을 비교할 경우 t검정 절차를 따르게 됨. 그런데 세 집단 이상의 평균을 비교할 때 t검정을 적용하게 되면 경우의 수가

늘어나고 이에 따라 검정 전체의 오차를 제어할 수 없음. 일원분산분석은 단순 평균비교가 아닌 집단간 평균들의 분산과 집단 내 관측치들의 분산을 비교하여 집단간 평균차이를 동시에 검정함으로써 검정 전체의 오차를 제어함

 

(3) 독립표본(independent sample) 평균검정과 대응표본(paired sample) 평균검정의 차이 비교

 

광고노출 후 태도변화나 의약품의 효과와 같이 두 개의 모집단을 비교해야 하는 경우, 처리 자극물인 광고노출이나 의약품 투약 외에

다른 요인은 완전히 동질적인 표본을 찾는 것은 현실적으로 불가능함. 이 때 동질적인 표본추출단위들끼리 하나의 쌍으로 나누어

동질적인 각 쌍에서 무작위로(랜덤하게) 선택한 하나의 표본추출단위에는 처리1을 적용하고 나머지에는 처리2를 적용하는 대용표본

평균검정을 적용하게 됨.

대응표본 평균검정은 독립표본 평균검정에 비해 자유도가 낮아져 신뢰구간이 커지고 검정력이 약화되는 한계가 있으나, 효과적인 쌍으로

구획할 경우 표본표준편차를 감소시켜 자유도의 손실에 다른 검정력 약화를 보전할 수 있음. 결국 잘 구획된 쌍으로 실시하는 대응표본의

평균검정은 독립표본의 평균검정보다 검정력이 우수할 가능성이 있음.

 

<통계적 추론 핵심정리>

 

경영지도사 시장조사론에서 통계적 추론이 독립된 문제로 출제된 경우는 많지 않습니다. 그러나, 회귀분석, 분산분석 등 분석 방법의

차이에도 불구하고 문제가 요구하는 자료의 해석은 통계적 추론과 관련된 지식을 필수적으로 요구하고 있습니다.

통계적 추론을 본격적으로 다루지는 못하더라도 기출문제의 자료 해석에 꼭 필요한 p-value에 대해서는 정확하게 이해해 두는 것이

좋겠습니다.

 

유의확률(p-; p-value, probability-value)


유의확률은 검정통계량의 관측값에 대하여 귀무가설을 기각할 수 있는 최소의 유의수준


보다 작은 유의수준에서 귀무가설을 기각할 수 있을수록 대립가설에 대한 분명한 증거가 될 수 있음.

    즉 유의확률은 통계적 실험의 결과가 대립가설을 반대하는 입증 정도.

 

표본크기가 커지면 표준오차가 0에 근접하게 되므로 사소한 차이도 통계적으로 구분이 가능해짐.

    따라서 귀무가설이 사실이건 아니건 대부분의 경우 귀무가설을 기각하게 됨

  ☞ 귀무가설 하에서의 유의확률을 제시함으로써 유의수준 즉 잘못해서 귀무가설을 기각하는 오류를 허용하는 확률의 상한를

     임의로 정하는 문제를 해결할 수 있음. 유의확률을 제시하게 되면 의사결정자 스스로 본인의 위험에 대한 태도에 기초해

     귀무가설의 기각여부를 결정할 수 있음.

 


Posted by dooka
,