회귀분석 ③

 

53. 회귀분석 ③

52. 회귀분석 ② 우리는 앞에서 최소자승법에 의한 회귀계수 추정을 하면서 독립변수 x와 종속변수 Y의 관계는 선형이며, 오차항은 정규분포를 따르고, 오차항의 분산은 동일한 값을 가질 뿐만 아니라 오차항은 서..

datascream.co.kr

자료가 회귀분석에 산정하는 가정에 부합하는지 여부를 검토하는 방법을 알아보았으므로 이제는 자료가 가정을 만족시키지 못할 경우 필요한 조치에 대해 살펴보도록 하겠습니다.

오차항의 가정에서 오차항의 분산은 일정한 값을 가져야 하는데 독립변수의 값이 증가하거나 감소함에 따라 분산이 달라지는 현상이 발생할 수 있습니다.

이를 이분산성(heteroscedasticity)이라고 하는데 이분산성이 문제 될 때 최소자승추정법으로 회귀계수를 추정하게 되면 회귀계수의 표준편차가 필요 이상으로 증가하여 정확한 회귀계수의 추정이 불가능해집니다.

이분산성 문제를 제거하는 방법은 변수를 변환하는 것입니다. 만약 오차항이 독립변수와 비례관계에 있다면 이를 모형에 반영해 새로운 변수에 대한 회귀분석을 실시할 수 있습니다. 오차항 ε=kx의 관계가 성립한다면 원래의 회귀모형을 독립변수 x로 나누어 준 후 회귀분석을 실시하여 이분산성의 문제를 해결할 수 있습니다. 다만, 원래의 변수는 논리적 추론을 통해 얻은 변수인데 이를 변환하여 얻은 새로운 변수의 의미는 무엇인가라는 해석의 문제는 남게 될 것입니다.

회귀분석에서 오차항이 확률적으로 독립이라는 가정이 성립하지 않는 경우로 관측값이 선행 관측값들과 상관관계를 가지는 자기상관(autocorrelation)도 있습니다.

 

자기상관 현상이 있으면 최소자승추정법을 적용할 경우 결정계수 R2값이 실제 이상으로 높아지고 추정 회귀분석모형이 통계적 검정을 통해 부당하게 정당화될 수도 있습니다. 독립변수 x와 종속변수 Y의 관계는 미미함에도 불구하고 단순히 오차항의 자기상관현상에 의해 회귀모형이 유의미한 것으로 잘못 판단할 수 있는 것입니다. 자기상관 역시 변수변환을 통해 제거할 수 있습니다. 이분산성의 제거와 마찬가지로 새로운 변수의 의미는 무엇인지에 대한 고민은 남게 됩니다.

 이제 단순선형회귀분석에서 독립변수의 수를 추가하여 다중선형회귀분석(multiple linear regression analysis)으로 논의를 확장해 보도록 하겠습니다. 독립변수가 2개 이상이라는 점을 제외하면 적용하는 가정은 동일합니다.

① 오차항 ℇ의 평균은 0이고 ② 분산은 σ2이며 ③ 서로 확률적으로 독립이고 동일한 정규분포를 따른다. 또한 ④ 독립변수 Xi는 비확률변수입니다. 반면, 오차항 ℇ는 확률변수이고 그 결과 종속변수 Yi 역시 확률변수가 됩니다.

다중선형회귀분석에서는 독립변수가 하나가 아니므로 어떤 변수들 취사선택할 것인지가 문제됩니다. 회귀분석에 포함할 독립변수는 종속변수와 상관관계가 높으면서도 선택한 독립변수들 상호간에는 상관관계가 낮아야 할 것입니다. 다중회귀분석에서 독립변수를 선택하는 방법에는 여러 개의 독립변수 중 에서 가장 중요한 변수 순으로 하나씩 선택해 나가는 전진선택(forward selection), 전체 독립변수 중에서 불필요한 변수를 하나씩 제거하는 후진제거(backward elimination)의 방법이 있습니다. 단계적 선택(stepwise selection)은 먼저 전진선택법으로 변수를 하나씩 선택해 나가고 이미 선택한 변수에 대해서는 다중공선성이 높게 나타나는 변수를 후진제거법으로 제거해나가는 방법입니다. 다중공선성이란 세 개 이상의 독립변수들간의 강한 선형관계를 보이는 현상을 말합니다.

선행조사의 결과와 방문고객 및 담당직원과의 인터뷰 등을 종합해 볼 때 단순선형회귀분석에서 생각했던 체험형 유통점에 대한 재방문의향에 영향을 미치는 요인은 대략 다음과 같은 10가지 정도인 것이 밝혀졌다고 가정해 보겠습니다. 이들 10가지 독립변수와 종속변수인 재방문의향의 관계를 다중선형회귀분석을 이용해 알아보겠습니다.

 

가상의 자료를 이용해 위 10개의 독립변수에 대해 다중선형회귀분석을 실시하고 단계적 선택법(stepwise selection)을 적용하여 독립변수를 선택해 보겠습니다.

선택된 독립변수들은 X1, X2, X4, X5, X7, X8의 여섯 개 변수들이고 이들 여섯 개 변수들을 대상으로 회귀계수에 대한 t검정을 실시해 본 결과 상대적으로 회귀계수의 추정치가 작은 값을 가지는 X2의 회귀계수가 통계적으로 유의미하지 않은 것으로 나타났습니다.

이제 X2를 제외하고 X1, X4, X5, X7, X8 만으로 회귀분석을 실시한 후 원래의 여섯 개 독립변수를 이용한 회귀분석과 비교해 보았습니다. X2를 제외한 회귀모형과 원래의 모형 사이에 설명력의 차이가 유의미하지 않은 것으로 보이므로 X1, X4, X5, X7, X8 을 최종 선택했습니다.

다중회귀분석에서는 이분산성이나 자기상관의 문제 외에도 세 개 이상의 독립변수들 간의 강한 선형관계를 보이는 다중공선성(multicollinearity)에 대해서도 유념해야 합니다. 특히 설문지를 이용한 횡단면 조사인 경우 여러 문항간의 다중공선성은 다소 불가피한 측면이 있습니다. 다중공선성은 회귀계수의 계산을 불가능하게 만들거나 회귀계수의 표준편차를 크게 증가시켜 정확한 통계적 검정을 할 수 없게 만들어 특정 독립변수의 독자적인 효과를 측정하는 것을 불가능하게 만듭니다.

일반적으로 독립변수간의 상관관계가 독립변수와 종속변수와의 상관관계보다 높은 경우 다중공선성을 의심해 볼 수 있습니다. 또한, 회귀계수의 표준편차가 매우 큰 값을 가지거나 회귀계수의 부호가 이론적으로 예측한 것과 반대로 나타난 경우에도 다중공선성이 의심됩니다. 독립변수를 추가하거나 삭제했을 때 혹은 자료의 미세한 변화에도 회귀계수 값의 변화가 클 경우 다중공선성을 의심할 수 있습니다.

다중공선성이 의심되는 경우에는 자료를 보완하거나 단계적 선택법을 통해 다중공선성이 의심되는 변수들 중 설명력이 낮은 변수를 제거하여 다중공선성의 문제를 완화할 수 있습니다. 그 외 서로 공행하는 독립변수들을 하나의 주성분으로 묶어 종속변수를 이들 주성분들에게 회귀시키는 주성분회귀분석(principal component regression analysis) 혹은, 공선성을 보이지 않는 외래 추정값을 활용하는 등의 방법으로 다중공선성의 문제를 완화할 수 있습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다.

'야행하는 리서치' 카테고리의 다른 글

53. 회귀분석 ③  (0) 2020.03.11
52. 회귀분석 ②  (0) 2019.05.17
51. Borich요구도와 The Locus for Focus model  (0) 2019.01.10
50. 회귀분석 ①  (0) 2018.08.06
49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
Posted by dooka
,

52. 회귀분석 ②

 

우리는 앞에서 최소자승법에 의한 회귀계수 추정을 하면서 독립변수 x와 종속변수 Y의 관계는 선형이며, 오차항은 정규분포를 따르고, 오차항의 분산은 동일한 값을 가질 뿐만 아니라 오차항은 서로 확률적으로 독립임을 가정했다. 그러므로 회귀분석에서의 추정과 검정을 신뢰하기 위해서는 자료가 가정에 부합하는지를 검토할 필요가 있다.

회귀분석의 가정을 검토하기 위해 R에서 회귀분석 결과의 산점도를 그려보겠다. plot()만으로 산점도를 그릴 수도 있겠지만 par(mfrow=)를 이용해 여러 개의 산점도를 한꺼번에 보여주면 보는 사람이 한꺼번에 판단할 수 있어 편할 것 같다. c(2,2)는 산점도를 2개씩 배열하도록 레이아웃을 지정해주는 옵션이다.

> par(mfrow=c(2,2))

> plot(output)

① 첫 번째 산점도는 잔차와 회귀식으로 예측한 Y값(fitted value, )의 관계를 보여주는 차트이다. 만약 독립변수x와 종속변수 Y이 선형관계를 가지고 오차항은 평균이 0이고 분산이 일정한 값을 가진 정규분포를 따른다면 잔차항은 과 무관하게 수평의 직선에 가까운 모습을 보일 것이다.

② 두 번째 산점도는 잔차항이 정규분포를 알아보기 위한 차트로 이론적인 정규분포 값과 잔차항을 잔차의 표준편차로 나눈 값이 직선의 형태에 부합하면 오차항이 정규분포를 따른다고 볼 수 있다. 만약 명확하지 않다면 정규성 검정절차를 거쳐 확인합니다. Shapiro 정규성 검정을 실시해 본 결과, 사례에서의 잔차항은 정규분포를 따른 것으로 볼 수 있다.

③ 세 번째 산점도는 잔차항을 잔차의 표준편차로 나눈 표준화 잔차항과 회귀식으로 예측한 Y값(fitted value, )의 관계를 보여주는 차트입니다. 오차항의 분산이 동일하다는 등분산 가정이 맞다면 표준화 잔차항은 값과 무관하게 수평의 형태를 보일 것이다.

사례에서 오차항이 일정한 분산을 가진다는 등분산 가정을 좀 더 정확하게 점검하기 위해 Goldfeld-Quandt 검정을 실시해 보았다. Goldfeld-Quandt 검정은 잔차의 이분산성이 독립변수의 값과 직접 관련이 있다는 가정 하에 잔차 분산이 큰 집단과 그렇지 않은 집단을 나누어 이분산성을 검증하는 방법이다. 검정 결과 오차항의 분산은 다른지 않은 것으로 볼 수 있다. Goldfeld-Quandt 검정을 R에서 사용하기 위해서는 lmtest라는 패키지를 설치해야 하고 설치를 위해서는 관리자 권한으로 R 프로그램을 실행해야 한다.

④ 네 번째 산점도는 극단치의 존재를 확인하는 차트이다. 레버리지는 설명변수가 얼마나 치우친 값을 가지는지를 나타내는 지표이며 레버리지 값이 크다는 뜻은 극단치의 존재를 시사한다. 이는 원본 데이터의 입력이 잘못 되었거나 추가적인 데이터 수집이 필요하다는 의미이다.

회귀분석에서 오차항은 서로 확률적으로 독립이라고 가정하는데 위 네 가지 산점도로는 이를 확인할 수 없다. 오차항들의 관계를 점검하기 위해서는 별도의 검정 절차가 필요하다.

오차항의 자기 회귀 현상을 점검하기 위해 사용하는 가장 일반적인 방법으로는 Durbin-Watson 검정이 있다. Durbin-Watson 검정은 회귀분석모형에 상수항이 포함되어 있고 독립변수가 비확률변수이며 독립변수에 시차변수가 포함되지 않을 때 적용할 수 있는 검정 절차이다. Durbin-Watson 통계량은 인접한 잔차항들 간의 차이의 제곱합을 잔차의 제곱합으로 나눈 값인데 잔차들 간에 자기 회귀 현상이 없다면 Durbin-Watson 통계량은 2에 가까운 값을 갖게 된다. 사례에서 Durbin-Watson 검정을 실시한 결과 오차항들간의 자기회귀현상은 없는 것으로 판단할 수 있을 것 같다.

자료가 회귀분석에 산정하는 가정에 부합하는지 여부를 검토하는 방법을 알아보았으므로 다음 포스팅에서는 자료가 가정을 만족시키지 못할 경우 필요한 조치에 대해 살펴보고자 한다.

 

 

 

'야행하는 리서치' 카테고리의 다른 글

54. 회귀분석 ④  (0) 2020.05.07
52. 회귀분석 ②  (0) 2019.05.17
51. Borich요구도와 The Locus for Focus model  (0) 2019.01.10
50. 회귀분석 ①  (0) 2018.08.06
49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
Posted by dooka
,

【 문제 5 】 제품만족도와 기업신뢰도라는 구성개념(construct)을 측정하기 위하여 각 구성개념별로 복수의 설문문항을 사용하였다. 제품만족도와 기업신뢰도를 독립변수로 하고 기업 수익성을 종속변수로 하는 회귀모형을 분석하고자 할 때, 두 독립변수의 측정항목을 대상으로 요인분석을 실행하여 독립변수 값으로 투입하기 위한 방법을 설명하시오.(10점)


☞ 문제 解說 5번 문제는 요인분석을 이용한 측정의 타당성 점검을 묻는 것인지, 회귀분석에서의 다중공선성에 대한 대처수단으로서의 요인분석을 묻는 것인지는 분명하지 않으나 구성개념을 측정하기 위해 설문문항을 구성했다는 지시문으로 볼 때 측정의 타당성 점검과 관련한 문제로 보입니다. 그러나, 정확하게 어떤 내용을 언급해야 할지 명확하지는 않습니다. 문제 5번과 같이 논점이 다소 분명하지 않은 경우에는 본인이 생각하는 답변 외에도 관련 내용을 간략하게나마 언급하는 것이 안전할 것입니다.


제품만족도와 기업신뢰도라는 추상적 개념을 측정도구 즉 설문이 얼마나 잘 반영하는지를 파악하기 위해 요인분석을 적용하게 됩니다. 요인분석은 변수들 간의 상관관계가 높은 것끼리 묶어 공통요인을 추출하는 다변량분석기법으로 입력변수들의 총분산을 이용해 공통요인을 추출하는 주성분분석과 입력변수들이 가지는 공통분산만을 이용해 공통요인을 추출하는 공통요인분석이 있습니다. 정보의 손실을 방지하기 위해 주성분을 적용하는 것이 일반적입니다.


요인분석 실시결과 항목의 요인적재량(factor loading)이 0.6이상이면 분석대상 변수가 해당요인에 속하는 것으로 판단하게 됩니다. 요인적재량이란 각 변수와 요인간의 상관계수로 해당 변수를 그 요인이 얼마나 잘 설명해주는가를 나타냅니다. 요인분석 결과 원래 의도한 구성개념대로 항목들이 하나의 요인으로 묶이고, 다른 개념으로 분류한 항목들이 다른 요인으로 묶이는지 파악함으로써 측정의 타당성을 점검할 수 있습니다.


제품만족도와 기업신뢰도를 구성하는 세부항목을 이루는 변수들을 회귀분석을 위한 독립변수로 활용할 경우, 독립변수들간의 강한 선형관계로 인해 회귀계수의 계산이 불가능하거나 회귀계수의 표준오차를 과장하여 검정 자체가 불가능하게 만드는 다중공선성의 문제가 발생하게 됩니다.


다중공선성의 문제를 보정하기 위한 방법으로 서로 공행하는 독립변수들을 하나의 주성분으로 통합하여 이들 주성분에 종속변수를 회귀시키는 방법이 있습니다. 주성분분석은 n개의 입력변수를 가지는 총분산을 n개의 주성분으로 다시 나타내고 총분산에 대한 설명력이 높은 순서대로 주성분요인을 추출하는 방법입니다. 주성분분석에서 원래의 변수들과 요인간의 관계를 분명히 하게 하기 위해 요인축을 회전하게 되는데 요인의 축들이 직각이 되도록 회전하게 되면 요인 간의 상관관계가 거의 없어지므로 다중공선성을 보정할 수 있습니다. 기존 독립변수 대신 주성분을 독립변수로 한 회귀분석을 실시하게 되면 주성분들 간의 독립성이 보장되므로 다중공선성의 문제를 보정할 수 있습니다.


그러나, 회귀분석에 적용한 주성분들은 원래 독립변수들의 선형결합 형태를 취하고 있기 때문에 직관적인 해석이 매우 어렵다는 취약점이 있습니다. 또한 독립변수의 총분산에 대한 설명력이 가장 높은 주성분이라고 하더라도 이것이 반드시 종속변수와 가장 높은 상관관계를 지는 것이 아니라는 한계가 있습니다.  


【 문제 6 】 층화표본추출법의 개념과 그 추출방법 2가지에 관하여 설명하시오. (10점)


추출확률이 정해져 있고 사전적으로 알 수 있어 표본추출로 인해 발생하는 오차에 대한 추정이 가능한 확률표본추출방법에는 가장 기본적인 단순임의추출 외에 층화표본추출, 체계적 추출 및 집락추출의 방법이 있습니다.


층화표본추출법은 모집단을 이질적인 몇 개의 층(stratum)으로 구분하여 각 층별로 단순임의추출을 적용하는 방법입니다. 층화표본추출법은 각 층별로 충분한 표본크기 확보가 가능하고 층간 이질성이 클 경우 조사의 정확성을 증대시킬 수 있습니다.


층화표본추출법에는 각 층의 크기만을 고려하는 비례배분과 분산까지 고려하는 최적배분의 방법이 있습니다. 비례배분은 층당 조사비용과 분산이 동일할 경우 적용하는 방법으로 각 층이 모집단에서 차지하는 비율만큼 표본을 할당하는 방법입니다.




최적배분은 허용오차한계를 제약조건으로 조사비용을 극소화하는 표본할당방법을 찾은 것입니다. 최적배분은 다시 네이만 배분(Neyman allocation)와 데밍 배분(Deming allocation)으로 구분할 수 있습니다.


네이만 배분(Neyman allocation)은 표본크기가 일정하게 주어져 있고 층마다 조사단위별 비용이 일정할 때 적용하는 방법으로 표본에 대한 할당은 각 층이 모집단에서 차지하는 비중 외에도 각 층별 분산에 비례하여 표본을 할당합니다.

 



데밍 배분(Deming allocation)은 총비용이 일정하게 주어져 있고 조사단위당 비용이 층에 따라 크게 변동할 때 적용하는 방법으로 각 층이 모집단에서 차지하는 비중이 클수록, 각 층의 분산이 클수록 표본을 보다 더 많이 할당하고 각 층의 조사단위당 비용이 높을수록 표본을 더 적게 할당하게 됩니다.




층화표본추출은 집단 간에 이질성이 존재할 경우 단순임의추출보다 더 정확하게 모집단을 대표하는 표본을 추출할 수 있습니다. 그러나, 집단을 구분하는 변수가 잘못된 경우 오히려 대표성을 저해할 수 있습니다.

Posted by dooka
,

2011문제 2추정된 회귀모형에서 독립변수와 종속변수의 관계를 설명하고 R제곱의 의미와 표준화회귀계수 beta에 내포한 의미에 대하여 설명하시오.(10)

회귀분석은 독립변수와 종속변수들간의 함수적 관련성을 규명하기 위해 수학적 모형을 가정하고 이 모형을 측정한 변수들의 자료로부터 추정하는 분석방법으로 독립변수와 종속변수들간의 선형적 관계를 규명하여 자료의 구조를 파악하는 것이 그 목적임.

R제곱은 결정계수라고도 하며 독립변수의 종속변수에 대한 설명력의 크기를 나타내는 척도임. 다중회귀분석에서 독립변수의 수가 증가하게 됨에 따라 결정계수R 제곱의 값은 높아지게 됨. 이러한 문제점을 해결하기 위해 각각의 제곱합에 자유도를 나누어 사용하는 수정결정계수를 활용하기도 함

비표준화회귀계수를 독립변수의 종속변수에 대한 영향력의 지표로 사용하는 경우 독립변수의 측정척도에 따라 불안전성을 보이며 특히 다중회귀모형에 심각한 문제를 야기함. 이를 해소하기 위해 독립변수와 종속변수 모두 표준화하여 회귀계수를 구하게 되면 이를 표준화회귀계수 beta라고 하게 됨.

 

2015문제 2 S 레스토랑은 지난 2년간 일별 매출액 자료 등을 이용하여 다음의 회귀식을 추정하였다.

  yj = 70-12D1j+25D2j+35D3j+2xij

   yj : 추정된 일별 매출

    D1 : 여름이면 1, 그 외에는 0 D2 : 가을이면 1, 그 외에는 0

    D3 : 겨울이면 1, 그 외에는 0 Xij : 일별 신문 광고비(단위 : 백만원)

 

다음 각 물음에 답하시오. (30)

 

(1) 위 추정 회귀식에 의거하여 조사목적을 추론하고, 회귀식을 해석하시오. (10)

일별신문광고비와 일별매출과의 선형적 관계를 규명하는 것이 목적임. 이때 매출은 계절적 주기를 가지고 있어 이를 모형에 반영하기 위해 가변수를 활용하였음. 가변수를 이용해 계절적 변동요인을 반영하지 않으면 광고비의 영향이 과대추정되는 문제가 발생할 것임.

 

(2) 회귀식의 추정에 사용된 독립변수와 종속변수를 제시하고, 각 변수의 척도 형태를 제시하시오. (10)

 회귀모형의 독립변수에 질적변수의 반영이 불가피한 경우 가변수를 활용하게 됨. 문제에서 독립변수는 광고비와 계절구분이며, 종속변수는 매출. 광고비와 매출은 연속형 변수인 반면, 계절구분변수는 범주형임.

 

(3) 위에서 추정된 회귀식을 기준으로 다음 물음에 각각 답하시오. (10)

  . 위 매장의 겨울 매출액은 봄과 얼마나 차이가 나는가?

  겨울 매출 봄 매출 = 70+35+2x -70-2x=35

   . 위 매장의 가을 매출액은 여름과 얼마나 차이가 나는가?

 가을 매출 여름 매출 = 70+25+2x -70+12-2x=37



2014문제 1 다음은 SPSS를 활용한 마케팅 분석기법으로 다중회귀분석의 출력결과이다. 다음의 질문에 답하시오.


1) 이 자료의 조사목적은 무엇이며, 독립변수와 종속변수는 각각 무엇인지 설명하시오.(7)

  서비스 수준과 품질 수준이 매출에 미치는 영향을 파악하기 위한 회귀분석모형. 독립변수는 서비스 수준과 품질 수준. 종속변수는 매출임.

 

(2) 이 자료 중 각 변수의 회귀계수의 유의확률은 어떠한지 설명하고, 이러한 유의확률이

어떤 통계적 의미를 갖는지 설명하시오. (허용유의수준 : 0.05) (4)

 품질수준점수의 유의확률은 0.000. 서비스수준점수의 유의확률은 0.005. 유의확률은 검정통계량의 관측값에 대하여 귀무가설을 기각할 수 있는 최소의 유의수준. 문제에서 각 변수의 회귀계수의 유의확률이 모두 허용유의수준보다 작은 값을 가지므로 두 독립변수 모두 매출 수준에 유의미한 영향을 미치고 있는 것으로 판단할 수 있음.

 

3) 독립변수 중 어느 변수가 더 높은 영향력을 가지며, 이러한 판단근거는 무엇인지 설명하시오. (5)

 

회귀계수를 비교해 보면, 품질수준의 영향력이 월등히 높은 것으로 해석할 수 있음. 단위의 영향을 고려하여 표준화회귀계수를 검토한 경우에도 품질수준의 영향력이 더 높은 것으로 나타남. 

 

(4) 회귀방정식을 도출하시오.(9)

매출액= 0.535 + 0.976 x 품질수준 + 0.251 x 서비스수준

 

(5) 만약 내년에 이 점포의 품질수준이 4, 서비스 수준이 5점이 될 경우 점포  예상매출액(금액단위 :억원)은 얼마인지 산출하시오.(5)

매출액= 0.535 + 0.976 x 4+ 0.251 x 5 = 5.694억원



2013문제 4 다중회귀분석에서 다중공선성의 개념을 설명하고, 통계적으로 다중공선성을 진단하는 2가지 방법에 대해 설명하시오. (10)

다중공선성은 3개 이상의 독립변수들간의 강한 선형관계를 보이는 현상으로 회귀계수의 계산을 불가능하게 만들거나 계산이 가능하더라도 회귀계수의 표준오차를 크게 부풀려 정확한 검정을 할 수 없게 함. 흔히 다음과 같은 경우 다중공선성이 있는 것으로 진단하게 됨.

독립변수간의 상관관계가 독립변수와 종속변수간의 상관관계보다 높은 경우.

회귀계수의 표준오차 값이 매우 큰 경우.

독립변수가 추가되거나 삭제되었을 때 회귀계수의 변화가 큰 경우.

일부 사례의 포함이나 배제와 같은 자료의 미미한 변화에도 회귀계수에 큰 변화를 보이는 경우 

회귀계수의 부호가 이론적으로 예측한 것과 반대로 나타나는 경우.

표준화회귀계수가 이론적으로 불가능한 값인 1.0보다 크거나 -1.0보다 작게 나타나는 경우

그 외 잔여분산과 고유근 분석을 통해 다중공선성 여부를 탐색함.

 

 

<회귀분석 핵심정리>

 

회귀분석 기출 문제중에 다중공선성이 출제된 바 있습니다. 다중공선성을 포함하여 회귀분석의 기본가정에 흠결이 있을 경우 발생가능한 문제는 아래와 같이 정리할 수 있습니다.


Posted by dooka
,