지난 포스팅에서 우리는 이표본에서의 모평균 비교에 대한 가설검정을 알아보았습니다. 그렇다면 비교 대상이 두 집단보다 커지는 경우에는 어떤 분석이 가능할지 생각해고자 합니다. 고등학생들을 대상으로 한 스터디 카페를 운영하는 기업에서 광고 모델 후보로 유명 연예인 A와 교육 전문가 B, 그리고 고등학생 자녀를 둔 일반 학부모 C를 고려하고 있으며 고등학생 자녀를 둔 학부모를 대상으로 설문조사를 실시하고 그 결과에 따라 A, B, C 중 한 명을 광고 모델로 선정하기로 했다고 가정해 보겠습니다.

 이들 후보 A, B, C에 대한 호감도에 차이가 있는지 여부를 알아보기 위해 각각 이표본 가설검정 절차를 적용한다면 A와 B, A와 C, B와 C를 비교한 총 3회의 가설검정 절차를 거쳐야 합니다. 각각의 검정 절차에서 유의수준을 5%로 제어할 경우, 총 3회의 가설검정에서 단 한번이라도 잘못해서 귀무가설을 기각할 제1종 오류를 범할 확률은 5%를 상회합니다.

 각각의 검정에 대해 제1종 오류를 범할 확률의 상한인 유의수준이 5%라고 하면 귀무가설이 참일 때 귀무가설을 기각하지 않을 확률의 최소 95%가 되고 총 세 가지의 검정별로 귀무가설이 참일 때 가능한 의사결정 유형의 확률을 정리해 보면 좋은 의사결정이 되기 위해서는 세 가지 의사결정에서 모두 귀무가설이 참일 때 귀무가설을 기각하지 말아야 하고 이 확률은 95%가 아니라 95%×95%×95%=86% 입니다. 또한, 검정 절차 중 어느 하나라도 잘못해서 귀무가설을 기각할 확률은 14%에 이르게 됩니다. 이처럼 세 집단 이상인 경우 이표본 가설검정 절차를 적용하면 가설검정의 오류를 관리하는 것이 쉽지 않습니다.

 

                                                  

 

 세 집단 이상 비교에서 가설검정의 오류를 효율적으로 제어할 수 있는 분석 방법이 동시검정이 가능한 분산분석(ANOVA; Analysis of Variance)입니다. 분산분석은 독립변수로 구분하는 세 개 이상의 집단에 속한 종속변수의 평균에 차이가 있는지 검정하는 분석방법으로 원인이 되는 독립변수는 명목형이나 서열형 척도로 측정한 값이고 결과가 되는 종속변수는 등간척도나 비율척도로 측정한 값일 때 적용 가능합니다.

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

 

 

 

 

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
45. 분산분석 ②  (0) 2018.03.15
43. 독립표본의 검정과 쌍체 비교  (0) 2017.09.25
42. 이표본 가설검정 ③  (0) 2017.09.13
41. 이표본 가설검정 ②  (0) 2017.09.11
Posted by dooka
,

2011문제 2추정된 회귀모형에서 독립변수와 종속변수의 관계를 설명하고 R제곱의 의미와 표준화회귀계수 beta에 내포한 의미에 대하여 설명하시오.(10)

회귀분석은 독립변수와 종속변수들간의 함수적 관련성을 규명하기 위해 수학적 모형을 가정하고 이 모형을 측정한 변수들의 자료로부터 추정하는 분석방법으로 독립변수와 종속변수들간의 선형적 관계를 규명하여 자료의 구조를 파악하는 것이 그 목적임.

R제곱은 결정계수라고도 하며 독립변수의 종속변수에 대한 설명력의 크기를 나타내는 척도임. 다중회귀분석에서 독립변수의 수가 증가하게 됨에 따라 결정계수R 제곱의 값은 높아지게 됨. 이러한 문제점을 해결하기 위해 각각의 제곱합에 자유도를 나누어 사용하는 수정결정계수를 활용하기도 함

비표준화회귀계수를 독립변수의 종속변수에 대한 영향력의 지표로 사용하는 경우 독립변수의 측정척도에 따라 불안전성을 보이며 특히 다중회귀모형에 심각한 문제를 야기함. 이를 해소하기 위해 독립변수와 종속변수 모두 표준화하여 회귀계수를 구하게 되면 이를 표준화회귀계수 beta라고 하게 됨.

 

2015문제 2 S 레스토랑은 지난 2년간 일별 매출액 자료 등을 이용하여 다음의 회귀식을 추정하였다.

  yj = 70-12D1j+25D2j+35D3j+2xij

   yj : 추정된 일별 매출

    D1 : 여름이면 1, 그 외에는 0 D2 : 가을이면 1, 그 외에는 0

    D3 : 겨울이면 1, 그 외에는 0 Xij : 일별 신문 광고비(단위 : 백만원)

 

다음 각 물음에 답하시오. (30)

 

(1) 위 추정 회귀식에 의거하여 조사목적을 추론하고, 회귀식을 해석하시오. (10)

일별신문광고비와 일별매출과의 선형적 관계를 규명하는 것이 목적임. 이때 매출은 계절적 주기를 가지고 있어 이를 모형에 반영하기 위해 가변수를 활용하였음. 가변수를 이용해 계절적 변동요인을 반영하지 않으면 광고비의 영향이 과대추정되는 문제가 발생할 것임.

 

(2) 회귀식의 추정에 사용된 독립변수와 종속변수를 제시하고, 각 변수의 척도 형태를 제시하시오. (10)

 회귀모형의 독립변수에 질적변수의 반영이 불가피한 경우 가변수를 활용하게 됨. 문제에서 독립변수는 광고비와 계절구분이며, 종속변수는 매출. 광고비와 매출은 연속형 변수인 반면, 계절구분변수는 범주형임.

 

(3) 위에서 추정된 회귀식을 기준으로 다음 물음에 각각 답하시오. (10)

  . 위 매장의 겨울 매출액은 봄과 얼마나 차이가 나는가?

  겨울 매출 봄 매출 = 70+35+2x -70-2x=35

   . 위 매장의 가을 매출액은 여름과 얼마나 차이가 나는가?

 가을 매출 여름 매출 = 70+25+2x -70+12-2x=37



2014문제 1 다음은 SPSS를 활용한 마케팅 분석기법으로 다중회귀분석의 출력결과이다. 다음의 질문에 답하시오.


1) 이 자료의 조사목적은 무엇이며, 독립변수와 종속변수는 각각 무엇인지 설명하시오.(7)

  서비스 수준과 품질 수준이 매출에 미치는 영향을 파악하기 위한 회귀분석모형. 독립변수는 서비스 수준과 품질 수준. 종속변수는 매출임.

 

(2) 이 자료 중 각 변수의 회귀계수의 유의확률은 어떠한지 설명하고, 이러한 유의확률이

어떤 통계적 의미를 갖는지 설명하시오. (허용유의수준 : 0.05) (4)

 품질수준점수의 유의확률은 0.000. 서비스수준점수의 유의확률은 0.005. 유의확률은 검정통계량의 관측값에 대하여 귀무가설을 기각할 수 있는 최소의 유의수준. 문제에서 각 변수의 회귀계수의 유의확률이 모두 허용유의수준보다 작은 값을 가지므로 두 독립변수 모두 매출 수준에 유의미한 영향을 미치고 있는 것으로 판단할 수 있음.

 

3) 독립변수 중 어느 변수가 더 높은 영향력을 가지며, 이러한 판단근거는 무엇인지 설명하시오. (5)

 

회귀계수를 비교해 보면, 품질수준의 영향력이 월등히 높은 것으로 해석할 수 있음. 단위의 영향을 고려하여 표준화회귀계수를 검토한 경우에도 품질수준의 영향력이 더 높은 것으로 나타남. 

 

(4) 회귀방정식을 도출하시오.(9)

매출액= 0.535 + 0.976 x 품질수준 + 0.251 x 서비스수준

 

(5) 만약 내년에 이 점포의 품질수준이 4, 서비스 수준이 5점이 될 경우 점포  예상매출액(금액단위 :억원)은 얼마인지 산출하시오.(5)

매출액= 0.535 + 0.976 x 4+ 0.251 x 5 = 5.694억원



2013문제 4 다중회귀분석에서 다중공선성의 개념을 설명하고, 통계적으로 다중공선성을 진단하는 2가지 방법에 대해 설명하시오. (10)

다중공선성은 3개 이상의 독립변수들간의 강한 선형관계를 보이는 현상으로 회귀계수의 계산을 불가능하게 만들거나 계산이 가능하더라도 회귀계수의 표준오차를 크게 부풀려 정확한 검정을 할 수 없게 함. 흔히 다음과 같은 경우 다중공선성이 있는 것으로 진단하게 됨.

독립변수간의 상관관계가 독립변수와 종속변수간의 상관관계보다 높은 경우.

회귀계수의 표준오차 값이 매우 큰 경우.

독립변수가 추가되거나 삭제되었을 때 회귀계수의 변화가 큰 경우.

일부 사례의 포함이나 배제와 같은 자료의 미미한 변화에도 회귀계수에 큰 변화를 보이는 경우 

회귀계수의 부호가 이론적으로 예측한 것과 반대로 나타나는 경우.

표준화회귀계수가 이론적으로 불가능한 값인 1.0보다 크거나 -1.0보다 작게 나타나는 경우

그 외 잔여분산과 고유근 분석을 통해 다중공선성 여부를 탐색함.

 

 

<회귀분석 핵심정리>

 

회귀분석 기출 문제중에 다중공선성이 출제된 바 있습니다. 다중공선성을 포함하여 회귀분석의 기본가정에 흠결이 있을 경우 발생가능한 문제는 아래와 같이 정리할 수 있습니다.


Posted by dooka
,

경험적으로 측정가능한 개념을 변수라고 할 때 변수는 다음과 같이 분류할 수 있습니다.


이 중 독립변수와 종속변수의 척도 유형에 따라 다변량분석을 분류할 수 있습니다.

 




Posted by dooka
,