회귀분석은 설명하는 독립변수와 설명되어지는 종속변수가 모두 연속형 변수일 때, 이들 변수들간의 함수적 관계를 규명하기 위해 모형을 가정하고 측정한 변수들로부터 가정한 모형을 추정하는 분석입니다.
우선 1개 독립변수의 정해진 값에서 측정가능한 종속변수에 대해 아래와 같이 단순선형회귀모형을 생각해보겠습니다.
독립변수의 정해진 값을 기준으로 모형을 구성하므로 우선 x 자체는 확률변수가 아니라는 점에 유념해야 합니다. 반면 종속변수 Y는 오차항을 포함하는 확률변수이며 Y의 통계적 속성은 전적으로 오차항에 의존합니다. 오차항은 확률적으로 독립이면서도 평균이 0이고 분산이 동일한 정규분포를 따르는 것으로 가정합니다.
선형회귀모형에서 회귀계수를 추정하는 일반적인 방법은 잔차항의 제곱합이 최소가 되도록 회귀계수의 값을 추정하는 최소자승추정법(OLS, Ordinary Least Squares)입니다.
단순선형회귀모형에서 최소자승추정법을 이용해 회귀계수를 추정한 결과는 다음과 같습니다.
최소자승추정법은 단순히 잔차항이 최소가 되도록 종속변수 Y 벡터를 분해한 것 뿐인데 이런 수리적 접근이 정당화되는 근거는 선형회귀모형의 가정 때문입니다. 이론적으로 타당한 접근은 주어진 표본의 출현가능성이 가장 높아지도록 모수를 추정하는 최우추정법(MLE : Maximum Likelihood Estimation)이 될 것이지만 선형회귀모형의 가정을 충족할 경우 그 결과는 최소자승추정법의 그것과 동일합니다. 그러므로, 선형회귀모형을 적용할 때에는 가정의 충족 여부를 검토해야 합니다.
회귀분석과 관련하여 한 가지 유념할 점은 회귀분석을 통해 통계적으로 유의미한 결과를 얻었다고 해서 이것이 인과관계를 확정적으로 시사하는 것은 아니라는 점입니다. 우리가 어떤 변수 X가 Y의 원인이 된다고 말할 수 있기 위해서는 두 변수가 공변화하는 모습을 보여야 할 뿐만 아니라 독립변수 X 외에 종속변수 Y의 변화를 설명할 수 있는 경쟁가설 즉 제3의 변수나 외생변수를 배제할 수 있어야 하고 독립변수 X는 종속변수 Y보다 먼저 발생하거나 먼저 변화해야 합니다. 그런데 일반적인 시장조사는 특정 시점에서의 상황을 조사하는 횡단면 조사인 경우가 많은데 그렇다면 독립변수로 추정하는 X와 종속변수로 추정하는 Y가 동일 시점에서 측정한 변수들이므로 단순히 이들을 이용한 회귀분석 결과가 통계적으로 유의미하다는 것만으로는 이들 변수간의 인과관계를 확정할 수는 없습니다.
'야행하는 리서치' 카테고리의 다른 글
52. 회귀분석 ② (0) | 2019.05.17 |
---|---|
51. Borich요구도와 The Locus for Focus model (0) | 2019.01.10 |
49. AHP(Analytical Hierarchy Process)에 대한 이해 (1) | 2018.07.06 |
48. null과 0의 구분 (0) | 2018.05.07 |
47. 분산분석 ③ (0) | 2018.05.07 |