회귀분석 ③

 

53. 회귀분석 ③

52. 회귀분석 ② 우리는 앞에서 최소자승법에 의한 회귀계수 추정을 하면서 독립변수 x와 종속변수 Y의 관계는 선형이며, 오차항은 정규분포를 따르고, 오차항의 분산은 동일한 값을 가질 뿐만 아니라 오차항은 서..

datascream.co.kr

자료가 회귀분석에 산정하는 가정에 부합하는지 여부를 검토하는 방법을 알아보았으므로 이제는 자료가 가정을 만족시키지 못할 경우 필요한 조치에 대해 살펴보도록 하겠습니다.

오차항의 가정에서 오차항의 분산은 일정한 값을 가져야 하는데 독립변수의 값이 증가하거나 감소함에 따라 분산이 달라지는 현상이 발생할 수 있습니다.

이를 이분산성(heteroscedasticity)이라고 하는데 이분산성이 문제 될 때 최소자승추정법으로 회귀계수를 추정하게 되면 회귀계수의 표준편차가 필요 이상으로 증가하여 정확한 회귀계수의 추정이 불가능해집니다.

이분산성 문제를 제거하는 방법은 변수를 변환하는 것입니다. 만약 오차항이 독립변수와 비례관계에 있다면 이를 모형에 반영해 새로운 변수에 대한 회귀분석을 실시할 수 있습니다. 오차항 ε=kx의 관계가 성립한다면 원래의 회귀모형을 독립변수 x로 나누어 준 후 회귀분석을 실시하여 이분산성의 문제를 해결할 수 있습니다. 다만, 원래의 변수는 논리적 추론을 통해 얻은 변수인데 이를 변환하여 얻은 새로운 변수의 의미는 무엇인가라는 해석의 문제는 남게 될 것입니다.

회귀분석에서 오차항이 확률적으로 독립이라는 가정이 성립하지 않는 경우로 관측값이 선행 관측값들과 상관관계를 가지는 자기상관(autocorrelation)도 있습니다.

 

자기상관 현상이 있으면 최소자승추정법을 적용할 경우 결정계수 R2값이 실제 이상으로 높아지고 추정 회귀분석모형이 통계적 검정을 통해 부당하게 정당화될 수도 있습니다. 독립변수 x와 종속변수 Y의 관계는 미미함에도 불구하고 단순히 오차항의 자기상관현상에 의해 회귀모형이 유의미한 것으로 잘못 판단할 수 있는 것입니다. 자기상관 역시 변수변환을 통해 제거할 수 있습니다. 이분산성의 제거와 마찬가지로 새로운 변수의 의미는 무엇인지에 대한 고민은 남게 됩니다.

 이제 단순선형회귀분석에서 독립변수의 수를 추가하여 다중선형회귀분석(multiple linear regression analysis)으로 논의를 확장해 보도록 하겠습니다. 독립변수가 2개 이상이라는 점을 제외하면 적용하는 가정은 동일합니다.

① 오차항 ℇ의 평균은 0이고 ② 분산은 σ2이며 ③ 서로 확률적으로 독립이고 동일한 정규분포를 따른다. 또한 ④ 독립변수 Xi는 비확률변수입니다. 반면, 오차항 ℇ는 확률변수이고 그 결과 종속변수 Yi 역시 확률변수가 됩니다.

다중선형회귀분석에서는 독립변수가 하나가 아니므로 어떤 변수들 취사선택할 것인지가 문제됩니다. 회귀분석에 포함할 독립변수는 종속변수와 상관관계가 높으면서도 선택한 독립변수들 상호간에는 상관관계가 낮아야 할 것입니다. 다중회귀분석에서 독립변수를 선택하는 방법에는 여러 개의 독립변수 중 에서 가장 중요한 변수 순으로 하나씩 선택해 나가는 전진선택(forward selection), 전체 독립변수 중에서 불필요한 변수를 하나씩 제거하는 후진제거(backward elimination)의 방법이 있습니다. 단계적 선택(stepwise selection)은 먼저 전진선택법으로 변수를 하나씩 선택해 나가고 이미 선택한 변수에 대해서는 다중공선성이 높게 나타나는 변수를 후진제거법으로 제거해나가는 방법입니다. 다중공선성이란 세 개 이상의 독립변수들간의 강한 선형관계를 보이는 현상을 말합니다.

선행조사의 결과와 방문고객 및 담당직원과의 인터뷰 등을 종합해 볼 때 단순선형회귀분석에서 생각했던 체험형 유통점에 대한 재방문의향에 영향을 미치는 요인은 대략 다음과 같은 10가지 정도인 것이 밝혀졌다고 가정해 보겠습니다. 이들 10가지 독립변수와 종속변수인 재방문의향의 관계를 다중선형회귀분석을 이용해 알아보겠습니다.

 

가상의 자료를 이용해 위 10개의 독립변수에 대해 다중선형회귀분석을 실시하고 단계적 선택법(stepwise selection)을 적용하여 독립변수를 선택해 보겠습니다.

선택된 독립변수들은 X1, X2, X4, X5, X7, X8의 여섯 개 변수들이고 이들 여섯 개 변수들을 대상으로 회귀계수에 대한 t검정을 실시해 본 결과 상대적으로 회귀계수의 추정치가 작은 값을 가지는 X2의 회귀계수가 통계적으로 유의미하지 않은 것으로 나타났습니다.

이제 X2를 제외하고 X1, X4, X5, X7, X8 만으로 회귀분석을 실시한 후 원래의 여섯 개 독립변수를 이용한 회귀분석과 비교해 보았습니다. X2를 제외한 회귀모형과 원래의 모형 사이에 설명력의 차이가 유의미하지 않은 것으로 보이므로 X1, X4, X5, X7, X8 을 최종 선택했습니다.

다중회귀분석에서는 이분산성이나 자기상관의 문제 외에도 세 개 이상의 독립변수들 간의 강한 선형관계를 보이는 다중공선성(multicollinearity)에 대해서도 유념해야 합니다. 특히 설문지를 이용한 횡단면 조사인 경우 여러 문항간의 다중공선성은 다소 불가피한 측면이 있습니다. 다중공선성은 회귀계수의 계산을 불가능하게 만들거나 회귀계수의 표준편차를 크게 증가시켜 정확한 통계적 검정을 할 수 없게 만들어 특정 독립변수의 독자적인 효과를 측정하는 것을 불가능하게 만듭니다.

일반적으로 독립변수간의 상관관계가 독립변수와 종속변수와의 상관관계보다 높은 경우 다중공선성을 의심해 볼 수 있습니다. 또한, 회귀계수의 표준편차가 매우 큰 값을 가지거나 회귀계수의 부호가 이론적으로 예측한 것과 반대로 나타난 경우에도 다중공선성이 의심됩니다. 독립변수를 추가하거나 삭제했을 때 혹은 자료의 미세한 변화에도 회귀계수 값의 변화가 클 경우 다중공선성을 의심할 수 있습니다.

다중공선성이 의심되는 경우에는 자료를 보완하거나 단계적 선택법을 통해 다중공선성이 의심되는 변수들 중 설명력이 낮은 변수를 제거하여 다중공선성의 문제를 완화할 수 있습니다. 그 외 서로 공행하는 독립변수들을 하나의 주성분으로 묶어 종속변수를 이들 주성분들에게 회귀시키는 주성분회귀분석(principal component regression analysis) 혹은, 공선성을 보이지 않는 외래 추정값을 활용하는 등의 방법으로 다중공선성의 문제를 완화할 수 있습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다.

'야행하는 리서치' 카테고리의 다른 글

53. 회귀분석 ③  (0) 2020.03.11
52. 회귀분석 ②  (0) 2019.05.17
51. Borich요구도와 The Locus for Focus model  (0) 2019.01.10
50. 회귀분석 ①  (0) 2018.08.06
49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
Posted by dooka
,

52. 회귀분석 ②

 

우리는 앞에서 최소자승법에 의한 회귀계수 추정을 하면서 독립변수 x와 종속변수 Y의 관계는 선형이며, 오차항은 정규분포를 따르고, 오차항의 분산은 동일한 값을 가질 뿐만 아니라 오차항은 서로 확률적으로 독립임을 가정했다. 그러므로 회귀분석에서의 추정과 검정을 신뢰하기 위해서는 자료가 가정에 부합하는지를 검토할 필요가 있다.

회귀분석의 가정을 검토하기 위해 R에서 회귀분석 결과의 산점도를 그려보겠다. plot()만으로 산점도를 그릴 수도 있겠지만 par(mfrow=)를 이용해 여러 개의 산점도를 한꺼번에 보여주면 보는 사람이 한꺼번에 판단할 수 있어 편할 것 같다. c(2,2)는 산점도를 2개씩 배열하도록 레이아웃을 지정해주는 옵션이다.

> par(mfrow=c(2,2))

> plot(output)

① 첫 번째 산점도는 잔차와 회귀식으로 예측한 Y값(fitted value, )의 관계를 보여주는 차트이다. 만약 독립변수x와 종속변수 Y이 선형관계를 가지고 오차항은 평균이 0이고 분산이 일정한 값을 가진 정규분포를 따른다면 잔차항은 과 무관하게 수평의 직선에 가까운 모습을 보일 것이다.

② 두 번째 산점도는 잔차항이 정규분포를 알아보기 위한 차트로 이론적인 정규분포 값과 잔차항을 잔차의 표준편차로 나눈 값이 직선의 형태에 부합하면 오차항이 정규분포를 따른다고 볼 수 있다. 만약 명확하지 않다면 정규성 검정절차를 거쳐 확인합니다. Shapiro 정규성 검정을 실시해 본 결과, 사례에서의 잔차항은 정규분포를 따른 것으로 볼 수 있다.

③ 세 번째 산점도는 잔차항을 잔차의 표준편차로 나눈 표준화 잔차항과 회귀식으로 예측한 Y값(fitted value, )의 관계를 보여주는 차트입니다. 오차항의 분산이 동일하다는 등분산 가정이 맞다면 표준화 잔차항은 값과 무관하게 수평의 형태를 보일 것이다.

사례에서 오차항이 일정한 분산을 가진다는 등분산 가정을 좀 더 정확하게 점검하기 위해 Goldfeld-Quandt 검정을 실시해 보았다. Goldfeld-Quandt 검정은 잔차의 이분산성이 독립변수의 값과 직접 관련이 있다는 가정 하에 잔차 분산이 큰 집단과 그렇지 않은 집단을 나누어 이분산성을 검증하는 방법이다. 검정 결과 오차항의 분산은 다른지 않은 것으로 볼 수 있다. Goldfeld-Quandt 검정을 R에서 사용하기 위해서는 lmtest라는 패키지를 설치해야 하고 설치를 위해서는 관리자 권한으로 R 프로그램을 실행해야 한다.

④ 네 번째 산점도는 극단치의 존재를 확인하는 차트이다. 레버리지는 설명변수가 얼마나 치우친 값을 가지는지를 나타내는 지표이며 레버리지 값이 크다는 뜻은 극단치의 존재를 시사한다. 이는 원본 데이터의 입력이 잘못 되었거나 추가적인 데이터 수집이 필요하다는 의미이다.

회귀분석에서 오차항은 서로 확률적으로 독립이라고 가정하는데 위 네 가지 산점도로는 이를 확인할 수 없다. 오차항들의 관계를 점검하기 위해서는 별도의 검정 절차가 필요하다.

오차항의 자기 회귀 현상을 점검하기 위해 사용하는 가장 일반적인 방법으로는 Durbin-Watson 검정이 있다. Durbin-Watson 검정은 회귀분석모형에 상수항이 포함되어 있고 독립변수가 비확률변수이며 독립변수에 시차변수가 포함되지 않을 때 적용할 수 있는 검정 절차이다. Durbin-Watson 통계량은 인접한 잔차항들 간의 차이의 제곱합을 잔차의 제곱합으로 나눈 값인데 잔차들 간에 자기 회귀 현상이 없다면 Durbin-Watson 통계량은 2에 가까운 값을 갖게 된다. 사례에서 Durbin-Watson 검정을 실시한 결과 오차항들간의 자기회귀현상은 없는 것으로 판단할 수 있을 것 같다.

자료가 회귀분석에 산정하는 가정에 부합하는지 여부를 검토하는 방법을 알아보았으므로 다음 포스팅에서는 자료가 가정을 만족시키지 못할 경우 필요한 조치에 대해 살펴보고자 한다.

 

 

 

'야행하는 리서치' 카테고리의 다른 글

54. 회귀분석 ④  (0) 2020.05.07
52. 회귀분석 ②  (0) 2019.05.17
51. Borich요구도와 The Locus for Focus model  (0) 2019.01.10
50. 회귀분석 ①  (0) 2018.08.06
49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
Posted by dooka
,

회귀분석 ①

 

  단순회귀분석의 사례를 알아 보기 위해 다음과 같은 사례를 생각해보기로 합니다. 운동화를 판매하는 기업이 기존 오프라인 유통점을 줄이고 스포츠 체험이나 사진 촬영 등이 가능한 체험형 유통점을 늘려 나가기로 결정했다고 가정해 보겠습니다. 체험형 유통점에서는 현장에서 바로 구매할 수도 있고 해당 운동화 브랜드 온라인 쇼핑몰의 본인 장바구니에 담아 둘 수도 있다고 하겠습니다. 또한 기존의 편의점(CVS) 및 기업형 슈퍼마켓(SSM)과의 제휴를 통해 시내 중심가에 위치한 체험형 유통점에서 제품을 고른 후 결제하고 제품은 소비자가 거주하고 있는 지역 인근이나 이동 경로에 위치한 편의점 및 기업형 슈퍼마켓에서 수령할 수 있게 함으로써, 평일에는 근로와 혼잡한 대중교통 이용으로 쇼핑이 용이하지 않지만 운동화에 대해 관심이 많은 소비자들의 평일 오프라인 운동화 쇼핑활동을 촉진하기로 결정했다고 해보겠습니다. 그런데 체험형 유통점을 운영할 경우 보통의 유통점보다 내점 고객에 대한 응대가 많아져 기존 인력만으로는 만족할 만한 서비스 제공이 어렵지만 단기적으로 매출이 늘지 않는 상황에서 투입 인력을 증가시킬 수 없어 체험형 유통점에 내점하는 고객들의 서비스 만족도가 재방문의향에 어느 정도 영향을 미치는지 알아보고 단기적으로 예상매출감소가 용인할 만한 수준이라면 의미 있는 매출의 증가가 있을 때까지는 체험형 유통점 직원을 증가시키지 않기로 했다고 생각해 보겠습니다. 이를 알아보기 위해 체험형 유통점 내방 고객 300명을 대상으로 설문 조사를 실시하여 매장 재방문 의향과 직원 서비스 만족도를 평가했다고 종속변수 Y는 재방문의향, 독립변수 는 직원 서비스 만족도인 단순선형회귀분석을 적용해 보기로 했습니다.

  이 때, 재방문의향 Y와 직원 서비스 만족도 의 관계를 나타내는 회귀선을 어떻게 구할 것인가가 문제될 것입니다. 회귀선을 구하는 방법은 실제 Y값과 회귀선을 통해 추정한 값 (Y hat)의 차이 즉 잔차 e==a+bx의 제곱합을 최소화하도록 a와 b를 추정하는 것입니다. a와 b는 α와 β의 추정량이다. a와 b는 표본을 통해 얻어지는 추정량이라는 뜻에서 소문자로 표기하였다. 이렇게 자료에서 회귀식으로 설명하지 못하는 잔차항의 제곱합이 최소가 되도록 회귀계수의 값을 추정하는 방법을 최소자승추정법이라고 합니다.

 

 

  R에서 단순선형회귀분석을 실행하기 위해서는 lm(종속변수~독립변수,data= 분석 대상 데이터) 형식으로 명령어를 실행하면 됩니다. 키와 몸무게의 관계와 같이 절편항이 없는 회귀식이 있을 수 있습니다. 이럴 때에는 lim(Y~X-1,data=SR) 형태로 명령어를 변경해 주면 됩니다. R에서 분산분석을 실행하는 명령어는 aov(종속변수~독립변수, data=분석 대상 데이터)였는데 독립변수와 종속변수의 형태만 정확하게 입력했다면 분산분석에서도 lm 명령을 활용할 수 있습니다.

단순선형회귀모형에 대한 분산분석표와 회귀분석 결과 요약은 아래와 같습니다. 사례의 단순선형회귀무형은 유의미한 것으로 나타났습니다. 단순선형회귀분석에서는 독립변수와 종속변수가 각각 한 개씩 이므로 분산분석표에서의 F 통계량의 값과 개별 회귀계수에 대한 검정통계량인 T통계량이 완전히 동일하게 됩니다. 아래 회귀분석 결과의 요약 summary(output)에서 회귀계수 β에 대한 t통계량의 값은 4.991이고 이를 제곱하면 F 통계량의 값이 됨을 확인할 수 있습니다.

 

  위의 회귀분석 결과의 요약에서 residual은 잔차를 의미합니다. min은 전체 자료에서 가장 작은 값, max는 가장 큰 값을 말합니다. median은 자료를 크기 순으로 배열했을 때 중간에 위치한 값입니다. 그 외 1Q는 제1사분위수(first quartile)- 자신보다 작은 값들이 전체 자료에서 차지하는 비율이 25%인 값을 말하고 3Q는 제3사분위수(third quartile)-자신 보다 작은 값들이 전체 자료에서 차지하는 비율이 75%인 값입니다. 이들 min, max, median, 1Q,3Q를 보는 이유는 이들 다섯 가지 수치를 보면 분포의 형태를 짐작할 수 있기 때문입니다. 이들 다섯 가지 수치를 포함하여 boxplot을 그려보면 아래와 같습니다. 다소 비대칭인 모습을 보여 좀 더 살펴볼 필요가 있어 보입니다.

> boxplot(resid(output))

  R에서 실행한 단순선형회귀분석의 결과에서 Multiple R-squared는 회귀분석모형이 자료를 얼마나 잘 설명하는지를 나타내는 결정계수입니다. 결정계수는 회귀분석을 통해 얻은 Y의 추정값과 Y의 평균값의 차이를 제곱하여 더한 SSR(regression sum of square)을 실제 Y 값과 Y의 평균값의 차이를 제곱하여 더한 SST(total sum of square)로 나눈 값입니다. 실제 Y값과 Y의 평균값의 차이 중에서 회귀식이 설명하는 부분이 커지면 SSR 역시 커질 것이므로 결정계수 역시 큰 값을 가지게 됩니다. 결정계수는 독립변수가 증가하면 할수록 실제 설명력과는 무관하게 증가하는 문제를 갖고 있습니다. 이러한 문제를 해결하기 위해 자유도를 반영하여 독립변수가 증가하여 자유도가 증가하는 만큼 설명력이 증가하지 못하면 수치가 감소하도록 보정한 것이 수정결정계수(adjusted R-squared)입니다. 아래 수정결정계수 산출식에서 n은 표본크기, k는 독립변수의 개수입니다.

 

 R을 이용해 사례의 회귀분석 결과로부터 회귀계수의 신뢰구간을 아래와 같이 구해 보았습니다. 우리는 오차항에 대해 정규분포를 가정했으므로 역시 모평균에 대한 추정과 동일한 원리로 회귀계수에 대한 신뢰구간을 추정해 볼 수 있을 것입니다.

> confint(output)

2.5 % 97.5 %

(Intercept) 1.4911538 2.0435537

X 0.1719069 0.3956894

이제, R에서 회귀식을 이용해 x가 3일 때의 Y값을 예측해 보도록 하겠습니다.

> predict(output,newdata=data.frame(X=3))

2.618748

                                                             

 

 

'야행하는 리서치' 카테고리의 다른 글

54. 회귀분석 ④  (0) 2020.05.07
53. 회귀분석 ③  (0) 2020.03.11
51. Borich요구도와 The Locus for Focus model  (0) 2019.01.10
50. 회귀분석 ①  (0) 2018.08.06
49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
Posted by dooka
,

  교육과정을 설계하기 위한 첫 단계로 교육요구분석이 필요합니다. 교육요구분석의 한 방법으로 Borich요구도와 the locus for focus 모델을 활용할 수 있습니다. Borich요구도는 피교육생이 필요한 역량의 중요도 수준과 현재 역량의 차이를 해당 역량의 중요도 수준으로 가중한 값입니다. 평균의 가법성으로 인해 개별 응답값의 Borich요구도를 구해 전체 산술평균을 구하든지 중요도 수준과 현재 역량 수준의 산술평균값들을 이용해 Borich요구도를 구하든지 그 값은 동일합니다. Borich요구도는 아래 공식으로 산출합니다.

Borich요구도=(역량의 중요도-역량의 현재수준)×역량의 중요도 평균

 교육수요를 파악할 때 Borich요구도 외에 The Locus for Focus model에 의한 결과를 함께 고려하기도 하는 것 같습니다. The Locus for Focus model의 결과 예시는 아래와 같습니다. The Locus for Focus model에서는 역량의 중요도와 현재수준의 차이와 역량의 중요도를 이용해 map을 작성하게 됩니다.

  The Locus for Focus model에서는 역량의 중요도와 현재수준의 차이와 역량의 중요도가 모두 높은 역량의 우선순위가 높다고 판단하게 됩니다. the Locus for Focus model에서 우선순위가 높은 것으로 판단되면서도 Borich요구도 높은 역량을 최우선적으로 충족해야할 역량이라고 볼 수 있을 것입니다. 구체적인 절차는 교육학 관련 논문을 찾아보시면 손쉽게 확인하실 수 있습니다.

 왜 Borich요구도와 the Locus for Focus model을 동시에 고려해야 하는지를 생각해 보기 위해 우선 Borich요구도에 로그를 취해 보겠습니다. 그러면 ln(Borich요구도)=ln(역량의 중요도-역량의 현재수준)+[∑ln(역량의 중요도)]/n이 됩니다. 이를 중요도로 미분하면 Borich요구도의 중요도 탄력성이 됩니다. 이는 양의 값을 가지게 되는데 결국 Borich요구도는 중요도와 공행하는 특성을 지니게 됩니다. 그러므로 역량의 중요도 대비 현재수준의 차이가 크더라도 중요도 자체가 크지 않으면 특정 역량이 간과될 수 있습니다. 그런데 the Locus for Focus model에서 개별 역량의 위치는 원점으로부터의 거리와 (중요도-현재수준)/중요도로 특정할 수 있고, 개별 역량의 위치가 원점으로부터의 거리가 멀더라도 중요도가 (중요도-현재수준)에 비해 상대적으로 너무 크거나 작으면 우선순위가 낮아지는 구조를 가지게 됩니다. (중요도-현재수준)/중요도에 로그를 취해보면 ln(역량의 중요도-역량의 현재수준)-ln(역량의 중요도)의 형태를 취해 중요도의 영향이 Borich요구도와는 반대 방향임을 확인할 수 있습니다. 아마도 교육요구분석에서 특정 기준에 매몰되지 않고 Borich 요구도와 the Locus for Focus model를 함께 활용하는 이유 중 하나가 위와 같지 않을까 생각해 보았습니다.

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 성실하게 답변 드리겠습니다.

 

 

 

'야행하는 리서치' 카테고리의 다른 글

53. 회귀분석 ③  (0) 2020.03.11
52. 회귀분석 ②  (0) 2019.05.17
50. 회귀분석 ①  (0) 2018.08.06
49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
48. null과 0의 구분  (0) 2018.05.07
Posted by dooka
,

회귀분석은 설명하는 독립변수와 설명되어지는 종속변수가 모두 연속형 변수일 때, 이들 변수들간의 함수적 관계를 규명하기 위해 모형을 가정하고 측정한 변수들로부터 가정한 모형을 추정하는 분석입니다.

우선 1개 독립변수의 정해진 값에서 측정가능한 종속변수에 대해 아래와 같이 단순선형회귀모형을 생각해보겠습니다.

독립변수의 정해진 값을 기준으로 모형을 구성하므로 우선 x 자체는 확률변수가 아니라는 점에 유념해야 합니다. 반면 종속변수 Y는 오차항을 포함하는 확률변수이며 Y의 통계적 속성은 전적으로 오차항에 의존합니다. 오차항은 확률적으로 독립이면서도 평균이 0이고 분산이 동일한 정규분포를 따르는 것으로 가정합니다.

선형회귀모형에서 회귀계수를 추정하는 일반적인 방법은 잔차항의 제곱합이 최소가 되도록 회귀계수의 값을 추정하는 최소자승추정법(OLS, Ordinary Least Squares)입니다.

단순선형회귀모형에서 최소자승추정법을 이용해 회귀계수를 추정한 결과는 다음과 같습니다.

최소자승추정법은 단순히 잔차항이 최소가 되도록 종속변수 Y 벡터를 분해한 것 뿐인데 이런 수리적 접근이 정당화되는 근거는 선형회귀모형의 가정 때문입니다. 이론적으로 타당한 접근은 주어진 표본의 출현가능성이 가장 높아지도록 모수를 추정하는 최우추정법(MLE : Maximum Likelihood Estimation)이 될 것이지만 선형회귀모형의 가정을 충족할 경우 그 결과는 최소자승추정법의 그것과 동일합니다. 그러므로, 선형회귀모형을 적용할 때에는 가정의 충족 여부를 검토해야 합니다.

회귀분석과 관련하여 한 가지 유념할 점은 회귀분석을 통해 통계적으로 유의미한 결과를 얻었다고 해서 이것이 인과관계를 확정적으로 시사하는 것은 아니라는 점입니다. 우리가 어떤 변수 X가 Y의 원인이 된다고 말할 수 있기 위해서는 두 변수가 공변화하는 모습을 보여야 할 뿐만 아니라 독립변수 X 외에 종속변수 Y의 변화를 설명할 수 있는 경쟁가설 즉 제3의 변수나 외생변수를 배제할 수 있어야 하고 독립변수 X는 종속변수 Y보다 먼저 발생하거나 먼저 변화해야 합니다. 그런데 일반적인 시장조사는 특정 시점에서의 상황을 조사하는 횡단면 조사인 경우가 많은데 그렇다면 독립변수로 추정하는 X와 종속변수로 추정하는 Y가 동일 시점에서 측정한 변수들이므로 단순히 이들을 이용한 회귀분석 결과가 통계적으로 유의미하다는 것만으로는 이들 변수간의 인과관계를 확정할 수는 없습니다.

 

 

 

'야행하는 리서치' 카테고리의 다른 글

52. 회귀분석 ②  (0) 2019.05.17
51. Borich요구도와 The Locus for Focus model  (0) 2019.01.10
49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
48. null과 0의 구분  (0) 2018.05.07
47. 분산분석 ③  (0) 2018.05.07
Posted by dooka
,

AHP는 유한한 대안들이 다수의 목표 혹은 속성에 어느 정도 적합한지 평가하여 대안을 선택하는 의사결정방법입니다. AHP는 유한한 수의 대안을 두 개 씩 짝 지운 쌍대비교를 통해 의사결정을 지원합니다. 미시 경제학에서의 선호체계를 접해 보신 분이라면 AHP에 대한 직관적인 이해가 가능하리라고 생각합니다. 실무에서는 이미 AHP를 위한 엑셀 자료도 나와 있고, SPSS 등 통계프로그램에서 AHP를 간단하게 실행해 볼 수 있는 방법들도 많습니다. 그럼에도 단순히 절차를 실행해서 결과를 얻는 것에서 조금은 더 나아가 AHP를 직관적으로 이해하는 경험을 가진다면 점 더 통찰력 있는 분석 결과의 활용이 가능할지도 모르겠습니다

 AHP를 실행하기 위해서는 우선 속성과 대안의 계층구조와 쌍대비교행렬을 구성한 다음, 속성별 가중치를 계산하고 일관성 검증을 실시한 다음 AHP를 타당하다고 판단할 경우 대안의 속성별 선호도 합산을 통해 최적의 대안을 선택하는 과정을 밟게 됩니다.

AHP를 실행하기 위해서는 목표를 설정하고 목표를 달성하기 위한 대안을 파악하는 한편, 대안 평가를 위한 관련 기준 역시 설정해야 하지만, 우리는 이미 이러한 과정을 완료했다고 가정하고 논의를 계속 진행해 보겠습니다. 아래와 같이 공공기관이 어떤 교육과정을 지원해야할지 결정해야 하는 경우를 생각해 보겠습니다. 지원을 고려하고 있는 교육과정은 총 4개 과정이 있고, 교육과정을 평가하는 속성으로는 현장훈련수요, 취업가능성, 기간산업과의 적합성 및 훈련방식의 적합성이 있다는 것이 알려져 있다고 해보겠습니다.

 

AHP 분석을 위한 계층구조를 위와 같이 구성한 후 조사표를 작성하여 교육 훈련 관련 전문가들의 의견을 취합했습니다. 조사표는 아래와 같은 형태로 가능한 속성과 교육과정별로 쌍대비교를 실시하는 구성을 가집니다. 속성은 총 4개이므로 속성에 대해서는 [4×(4-1)]/2!, 6개의 쌍대비교가 필요하고, 각 속성별로 교육과정에 대한 쌍대비교를 해야 하므로 4×6개의 쌍대비교를 추가로 실시해야 합니다.

 

조사표의 결과를 기준으로 쌍대비교행렬을 구성한 결과는 아래와 같습니다.

여러 응답자들의 결과를 취합할 때에는 아래와 같이 기하평균(geometric mean)을 이용하면 됩니다.

쌍대비교행렬을 구성한 후에는 각 속성별로 열의 합계를 계산합니다. 속성별 중요도를 각 열별 합계로 나눠 줌으로써 열 기준 각 속성 중요도의 합이 1이 되도록 정규화합니다. 정규화한 중요도를 행으로 합한 다음, 행의 합을 다시 한 번 합산하여 각 행의 합을 합산한 값으로 나눠 줍니다. 이렇게 구한 중요도 값은 각 속성별로 다른 속성에 비해 어느 정도 중요한지를 보여주는 값이라고 해석할 수 있습니다.

속성별 중요도를 계산했으므로 결과가 얼마나 일관성이 있는지 알아보겠습니다. AHP에서 일관성 검증이란 미시경제학에서 선호의 공리 중 선호체계에 이행성이 있는지 알아보는 절차입니다. 예를 들어 취업가능성이 기간산업적합성보다 더 중요한 속성이고, 기간산업적합성은 훈련방식적합성보다 더 중요하다면 취업가능성이 훈련방식적합성보다 더 중요해야 이행성이 있는 것으로 판단할 수 있을 것입니다. 취업가능성과 기간산업적합성을 쌍대비교한 결과 취업가능성이 7만큼 더 선호되는 것으로 나타났고 기간산업적합성과 훈련방식적합성을 쌍대비교한 결과 기간산업적합성이 4만큼 더 선호되는 것으로 나타났습니다. 그렇다면 취업가능성을 훈련방식적합성에 비해 11만큼 선호해야 하지만 2~9점까지 선택할 수 있는 조사표에서의 응답결과는 8점으로 나타났습니다. 그러므로 이 차이를 이행성이 있는 것으로 볼 지 아니면 없는 것으로 볼 지 여부를 판단하는 절차가 필요합니다. AHP에서는 CR(Consistency Ratio)를 활용해 이행성 즉 일관성을 점검합니다. CRCI(Consistency Index)RI(Random Index)로 나눠 줌으로써 구합니다. CI는 고유값(λmax;eigen value) 중 가장 큰 값에서 쌍대비교행렬의 크기만큼 차감한 다음 이미 활용한 정보를 제외한 (쌍대비교행렬 크기-1)로 나눠 줌으로써 구할 수 있습니다. 만약 결과가 완벽하게 이행성을 가진 경우에는 고유값이 쌍대비교행렬의 크기가 동일한 값을 가지게 되고 CI0이 됩니다.

 

RI 값 대비 CI값이 어느 정도인지를 나타내는 CR 값을 구한 다음 이 값이 작다면 일관성이 있는 것으로 판단하게 됩니다. RI 값은 무작위로 평가했을 경우의 값으로 AHP를 체계화한 T.L Saaty는 쌍대비교행렬의 크기별로 가능한 RI값을 제시하고 있습니다. 쌍대비교 행렬 크기별 RI 값은 구글 검색을 통해 확인할 수 있습니다. 신뢰할 수 있는 기준을 확인하기 위해 원본 텍스트를 찾아 보고 싶다면 T.L Saaty의 저서를 참고하면 될 것 같습니다.

 사례에서 CR을 구해보면 아래와 같습니다. CR의 값은 0.093으로 0.1 이내이므로 일관성이 있는 것으로 판단할 수 있습니다. 일관성에 대한 점검은 속성별 쌍대비교 외에 속성별 각 교육과정에 대한 평가 결과에 대해서도 동일하게 실시합니다.

Sum(A/B)=17.01, λmax=sum(A/B)/4=4.252, CI=(λmax-4)/(4-1)=0.084, RI=0.90, CR=CI/RI=0.093.

이제, 예시자료를 이용해 각 속성별로 개별 교육과정의 각 속성에 대한 적합도를 계산해 보겠습니다. 먼저, 각 속성별로 개별 교육과정의 적합도를 산출합니다.

 

 

 

 

각 속성별로 개별 훈련과정별로 적합도를 계산한 다음 이를 속성별 중요도로 가중하여 합산하여 각 훈련과정의 전체 적합도를 산출합니다. 그 결과가 훈련과정3의 적합도가 가장 높은 것으로 나타났으며, 다음으로는 훈련과정1, 훈련과정4, 훈련과정2의 순입니다. 만약 단 하나의 훈련과정을 지원해야 한다면 훈련과정3을 지원하는 것이 타당합니다.

 AHP의 과정을 좀 더 직관적으로 이해하기 위해 속성은 현장훈련수요와 취업가능성만 있고 훈련과정은 훈련과정1과 훈련과정3만 있는 경우를 생각해보겠습니다. 예제에서 속성의 중요도를 보면 현장훈련수요에 비해 취업가능성이 압도적으로 높음을 알 수 있습니다. 이를 속성을 기준으로 시각화하면 아래와 같은 직선 AB와 같을 것입니다. 속성에 따른 효용 혹은 편익이 동일한 수준인 점들을 모은 직선 AB는 미시경제학에서 이야기하는 무차별곡선에 해당합니다. 무차별곡선이라는 용어에서 짐작할 수 있듯 무차별곡선은 원점에 대해 볼록한 곡선이라고 가정하는 것이 일반적입니다. 여기에서는 의사결정 관련 범위 내에서 동일한 효용 혹은 편익을 가지는 현장훈련수요 속성과 취업가능성 속성이 선형적 관계를 가진다고 가정해 보겠습니다. 직선 AB에서 원점 방향으로 취업가능성이 감소하여 효용 역시 감소했다면 직선 AB 수준의 효용을 회복하기 위해서는 상대적으로 더 많은 현장훈련수요의 증대가 필요하고 결국 취업가능성이 현장훈련수요에 비해 더 중요하다고 판단할 수 있습니다. 훈련과정3은 취업가능성의 적합도가 훈련과정1에 비해 매우 높은 반면, 훈련과정1은 현장훈련3에 비해 현장훈련수요의 적합도가 약간 높은 것으로 나타났습니다. 직선AB로 대표되는 의사결정자의 속성별 중요도(선호체계) 하에서는 보다 높은 효용을 보장하는 선택은 훈련과정3이 됨을 확인할 수 있습니다. 만약 현장훈련수요의 중요도가 극단적으로 높은 경우라면 보다 높은 효용을 보장하는 훈련과정은 훈련과정1입니다.

 

직선 AB 수준의 효용을 회복하기 위해서는 상대적으로 더 많은 현장훈련수요의 증대가 필요하고 결국 취업가능성이 현장훈련수요에 비해 더 중요하다고 판단할 수 있습니다. 훈련과정3은 취업가능성의 적합도가 훈련과정1에 비해 매우 높은 반면, 훈련과정1은 현장훈련3에 비해 현장훈련수요의 적합도가 약간 높은 것으로 나타났습니다. 직선AB로 대표되는 의사결정자의 속성별 중요도(선호체계) 하에서는 보다 높은 효용을 보장하는 선택은 훈련과정3이 됨을 확인할 수 있습니다. 만약 현장훈련수요의 중요도가 극단적으로 높은 경우라면 보다 높은 효용을 보장하는 훈련과정은 훈련과정1이 됨을 알 수 있습니다. 결국 AHP는 속성에 대한 중요도가 주어졌을 때 이 중요도를 고려해 효용 내지 편익을 극대화할 수 있는 대안을 선택하는 과정임을 알 수 있습니다.

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오.

 

 

'야행하는 리서치' 카테고리의 다른 글

51. Borich요구도와 The Locus for Focus model  (0) 2019.01.10
50. 회귀분석 ①  (0) 2018.08.06
48. null과 0의 구분  (0) 2018.05.07
47. 분산분석 ③  (0) 2018.05.07
46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
Posted by dooka
,

데이터를 분석하다 보면 입력내용이 없을 경우, 이것을 ‘null’로 처리할지 아니면 ‘0’으로 처리할지 고민해야 할 때가 있습니다. 우선 ‘null'과 ’0‘값을 구분해 보도록 하겠습니다. 'null'은 말 그대로 입력값이 없기 때문에 분석 시 사례에 포함하지 않고, ’0‘값은 사례에 포함하여 데이터 분석에 반영해야 합니다. 아래 데이터를 보면 ’0‘값을 포함한 A2 변수에서는 ’0‘값을 포함하여 평균을 계산한 반면, null'이 있는 A1 변수에서는 평균 계산 시 'null'인 사례를 제외하고 평균을 계산함을 확인할 수 있습니다.

 

’null'과 ‘0'을 구분하여 데이터를 처리하는 기준은 의사결정에 필요한 정보가 무엇인가 될 것입니다. 사례를 통해 좀 더 자세히 알아보겠습니다. 가상의 지방자치단체 A시와 B시가 있고 A시와 B시에는 각각 10개의 협동조합이 있다고 가정해 보겠습니다. A시와 B시에 있는 협동조합들의 경력단절 여성 고용현황은 아래와 같습니다. 협동조합 전체 근로자 중 10%가 근무하기 전 경력단절 여성이었음을 알 수 있습니다.

 

이제 ‘0’으로 처리하는 경우와 ‘null’로 처리하는 경우와 로 나누어 A시와 B시의 경력단절 여성 근로자 평균 인원을 비교해 보겠습니다. 먼저 경력단절 여성을 고용하지 않은 경우 ‘0’을 입력하고 데이터를 분석해 보면, 경력단절 여성 근로자 수를 전체 근로자 수로 나눠 산출한 경력단절 여성 고용율은 A시와 B시 모두 10%임을 확인할 수 있습니다.

 

만약 사회적협동조합의 경력단절여성 고용 촉진을 고려하고 있는 A시와 B시의 정책담당자들은 경력단절여성 고용율 평균만을 의사결정을 위한 정보로 활용한다면 정책 방향의 차이가 별로 없을 것입니다.

 

이와 같이 경력단절여성을 고용하지 않은 경우에 '0'값으로 처리하는지 아니면 ‘null'값으로 처리하는지에 따라 A시와 B시의 사회적협동조합 경력단절여성 고용율이 차이가 큰 이유는 조합별 경력단절여성 고용 인원 수 뿐만 아니라 경력단절여성을 고융한 사회적협동조합의 수에도 차이가 크기 때문입니다.

경력단절여성을 고용하지 않은 경우를 'null'로 처리했을 때 A시와 B시의 차이는 사회적협동조합의 경력단절여성 고용 촉진을 위한 정책 처방 역시 A시와 B시가 달라야 함을 시사합니다. 그러므로 경력단절여성 비고용인 경우에 ‘0’으로 처리하여 경력단절여성 고용율 평균마을 제시할 것이 아니라 경력단절여성 고용 여부와 경력단절여성을 고용한 사회적 협동조합의 경력단절여성 근로자의 인원 현황을 함께 제시하는 것이 바람직합니다.

 

A시는 전체 사회적협동조합의 80%가 경력단절여성을 고용하고 있으며, 경력단절여성을 고용한 협동조합의 경력단절여성 근로자 인원 평균은 1.3명입니다. 반면, B시는 전체 사회적협동조합의 20%만이 경력단절여성을 고용하고 있지만, 경력단절여성을 고융한 협동조합의 경력단절여성 근로자 인원 평균은 5명입니다.

 

이를 근거로 보면 A시가 사회적협동조합의 경력단절여성 고용을 촉진하기 위해서는 경력단절여성을 이미 채용하고 있는 사회적협동조합의 추가 고용을 축진할 수 있는 정책처방이 필요한 반면,B시의 경우는 사회적협동조합의 경력단절여성 신규채용을 촉진할 수 있는 정책처방이 필요함을 알 수 있습니다.

이와 같이 데이터를 분석하기 전에 결측값을 ‘null'로 처리할지, ’0‘로 처리할지 여부는 의사결정을 위해 제공해야할 정보가 무엇인가를 근거로 판단해야 합니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오.

                                        

'야행하는 리서치' 카테고리의 다른 글

50. 회귀분석 ①  (0) 2018.08.06
49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
47. 분산분석 ③  (0) 2018.05.07
46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
45. 분산분석 ②  (0) 2018.03.15
Posted by dooka
,

세 가지 제품별 광고에서 정보 전달 중심의 광고 크리에이티브와 이미지 중심의 광고 크리에이티브에 따라 제품 광고에 대한 선호도가 달라지는지가 문제가 되는 경우를 생각해 보겠습니다. 이렇게 관심 있는 요인이 2개인 분산분석을 이원분산분석법(이원배치법; two-way ANOVA)이라고 합니다. 이원분산분석법에서 제품과 광고 크리에티브 유형이 모델 선호도에 미치는 영향을 알아보기 위해서는 3×2 경우의 서로 다른 제품과 서로 다른 지향의 광고 시안을 만들어 전체 표본에 대해 무작위로 3×2개의 광고 시안을 무작위로 노출하여 선호도를 평가합니다.

 

 

이원분산분석법에서는 두 요인의 교호작용(interaction)에 따라 종속변수의 반응이 달라지는지 살펴 볼 수 있습니다. 사례에서 교호작용이 없다면 두 광고 유형간의 제품별 광고 선호도에 차이가 있지만 제품 광고별 선호도 차이가 각 광고유형별로 동일하게 나타날 것입니다. 만약 정보 지향 광고에서 전문적 권위를 보유한 정보원(information source)을 좀 더 선호하는 경향이 있기 때문에 교호작용이 있다고 한다면 정보 지향 광고에서의 제품 광고 간 선호도 차이가 이미지 지향 광고에서의 제품 광고 간 선호도 차이보다 더 크게 나타나게 될 것입니다.

 

 

R에서 이원분산분석법을 적용한 결과는 아래와 같습니다. 사례에서 활용한 데이터에서는 광고 제품 간 호감도는 통계적으로 유의미한 차이를 보이지만 광고 크리에이티브 유형 및 광고 크리에이티브 유형와 광고 제품 상호간의 교호작용은 유의미하지 않은 것으로 나타났습니다.

 

 

제품 광고 사례에서 R을 이용해 응답자가 제품 사용 빈도가 높은 사용자(heavy user) 인지 아니면 그렇지 않은 사용자(light user) 인지에 따라 광고 선호도에 차이가 있는지를 알고 싶다면 위 R 명령어에서 교호작용 항을 삭제하고 실행하면 됩니다. 그런데 이 경우 분석절차는 반복이 없는 이분산분석법과 동일하지만 실제 설문조사를 진행하는 방법은 매우 다릅니다. 광고 유형별 광고 모델 선호도 차이를 알기 위해 광고 유형과 광고 제품의 조합만큼의 처리(treatment)를 생성해서 무작위로 표본에 노출했습니다. 그러나, 조사 대상 응답자가 heavy user인지 light user인지 여부는 조사설계자가 임의로 응답자에게 부여할 수 있는 속성이 아닙니다. 그러므로 응답자의 사용빈도 유형과 광고 제품의 조합만큼의 처리를 만들어낸다는 것 자체가 불가능합니다. 다만, 응답자를 구획화(blocking)해서 분류할 수 있을 뿐입니다. 이를 반복이 없는 이원분산분석과 구별하여 확률구획법(RBD; Randomized Block Design)이라고 합니다. 이원분산분석법이 통제집단 사후측정설계라면 RBD는 비동질적 통제집단 설계라고 할 수 있습니다.

 

 

사례에 해당하는 가상의 데이터를 활용해 분석한 결과 응답자 유형에 따른 에 따른 제품 컨셉트별 선호도의 차이는 없는 것으로 나타났습니다.

 

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오.

                                                

 

 

 

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
48. null과 0의 구분  (0) 2018.05.07
46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
45. 분산분석 ②  (0) 2018.03.15
44. 분산분석 ①  (0) 2018.01.03
Posted by dooka
,

구글 트렌드를 살펴보면 우리나라에서 '빅 데이터'의 검색량이 ‘설문조사’의 검색량을 상회하고 있습니다. 우리나라에서의 빅 데이터에 대한 관심을 짐작할 수 있습니다.

 

그런데, 미국의 구글 트렌드 결과는 이와는 약간 다릅니다. 여전히 'survey'의 검색량이 매우 높은 격차를 두고 ‘big data’의 검색량을 상회하고 있습니다.

무미건조하게 이야기한다면 빅 데이터란 기존의 도구로는 처리할 수 없는 대용량의 데이터라고 정의할 수 있습니다. 빅 데이터를 조금 다른 측면에서 바라본다면 표본추출이 필요 없을 정도로, 혹은 관심 있는 모집단 전체로부터 얻은 데이터와 동일하다고 봐도 무방할 정도로 큰 데이터라고 이해할 수도 있을 것 같습니다. 만약 우리가 모집단의 관심 있는 정보를 모두 알고 있다면 표본추출을 할 필요도 없고 가설을 세울 필요도 없습니다. 빅 데이터를 활용할 수 있다면 가설 혹은 이론이라고 할 만한 것을 정립할 필요가 없다는 뜻입니다.

그러나 모든 기업이 말 그대로의 빅 데이터에 접근할 수 있다고 생각하는 것은 다소 비현실적입니다. 또한. 우리가 관심 있는 모집단에 대한 데이터 전체를 가지고 있다고 해도 바로 그 사실을 알 수는 없습니다. 데이터를 요약해야만 데이터에 담긴 정보를 알 수 있습니다.

원하는 데이터를 가지고 있더라도 이를 통해 누가 우리가 집중해야할 고객인지 알기도 쉽지 않습니다. 데이터를 보기만 하면 즉각적으로 누가 우리의 고객인지 바로 알게 되는 것이 아니라 데이터 분석을 통해 고객을 찾아내는 것이 오히려 일반적일 수 있습니다. 시장에서는 생산자와 소비자가 분리되어 있으므로 생산자가 제공하는 물리적인 제품이나 서비스가 소비자의 어떤 편익을 충족하는지를 선험적으로 알기 어려운 경우도 많습니다.

변화의 시기에는 어쩌면 근본으로 돌아가는 것이 좋은 생존전략이 될 수도 있습니다. 새로운 기술에 대해 지속적인 관심과 함께 조심 역시 가져야겠습니다.

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

                                                    

 

'야행하는 리서치' 카테고리의 다른 글

48. null과 0의 구분  (0) 2018.05.07
47. 분산분석 ③  (0) 2018.05.07
45. 분산분석 ②  (0) 2018.03.15
44. 분산분석 ①  (0) 2018.01.03
43. 독립표본의 검정과 쌍체 비교  (0) 2017.09.25
Posted by dooka
,

분산분석은 독립변수로 구분하는 세 개 이상의 집단에 속한 종속변수의 평균에 차이가 있는지 검정하는 분석방법으로 원인이 되는 독립변수는 명목형이나 서열형 척도로 측정한 값이고 결과가 되는 종속변수는 등간척도나 비율척도로 측정한 값일 때 적용 가능합니다. 실험처리 요인인 독립변수가 하나인 경우를 특별히 일원분산분석법(일원배치법; one-way ANOVA)라고 합니다.

신제품 콘셉트 A, B, C에 대한 호감도의 차이를 알아보기 위한 일원분산분석 사례를 통해 분산분석에 대해 좀 더 알아보겠습니다. 일원분산분석법을 적용하기 위해서는 설문조사의 응답자들에게 무작위로 신제품 콘셉트 A, B, C를 노출함으로써 신제품 컨셉트 이외에 호감도에 영향을 미치는 요인이 여러 설문조사 응답자들에게 평균적으로 동일하게 작용하도록 제어하게 됩니다. 이런 의미에서 일원분산분석법을 완전확률화설계(Completely Randomized Design)라고도 하며, 일원분산분석법은 결국 서로 다른 k개의 모집단에서 서로 독립인 확률표본을 추출하는 것과 같습니다. 즉 일원분산분석법은 이표본 가설검정의 확장임을 알 수 있습니다.

일원분산분석법의 모집단 모형은 다음과 같이 설정할 수 있습니다. 오차항이 독립적이고 동일한 정규분포를 따르며 오차항의 평균은 0, 분산은 σ2이라고 해보겠습니다. 오차항의 기대값이 0이므로 관심 있는 독립변수 외의 다른 요인의 영향은 평균적으로 특정 방향으로의 경향성을 가지지 않는 비편향성을 보이며 독립변수의 수준에 관계없이 분산은 동일합니다.

제품 콘셉트별 호감도를 알아보기 위한 분산분석의 자료 구조는 아래와 같습니다. 콘셉트별 열에 해당하는 값들은 각 콘셉트에 대한 호감도 값들이며 제곱합은 각 제품 콘셉트 별로 개별 응답값에 각 제품 콘셉트별 호감도 평균을 차감하여 제곱한 후 그 값을 각 제품 콘셉트 별로 더한 값입니다.

 

만약 제품 콘셉트 간의 호감도에 차이가 있다면 집단 간의 분산 즉 전체 평균과 각 집단별 평균의 차이가 우연한 변동을 반영하는 집단 내 분산보다도 클 것입니다.

일원분산분석법에서는 집단 간 평균들의 분산과 집단 내 관측치들의 분산의 비율을 검정통계량으로 하여 집단 간 평균의 차이를 검정하게 됩니다. 검정통계량 F는 집단 간 분산/집단 내 분산=(집단 간 변량/자유도)(집단 내 변량/자유도)=(집단 간 제곱합/(집단의 수-1)]/[집단 내 제곱합/(전체표본크기-집단의 수)]로 정의하며, 검정통계량 F는 일원분산분석법의 가정과 F분포의 정의에 의해 F분포를 따르게 됩니다. 일원분산분석법의 검정통계량 F는 집단 간 분산과 집단 내 분산의 비율이므로 이 값이 크면 집단 간 평균의 차이가 있는 것으로 판단할 수 있습니다. 실제 조사 결과로부터 계산한 검정통계량 F값을 주어진 자유도와 유의수준 하에서의 임계치와 비교하여 계산한 F값이 임계치보다 크다면 집단 간 평균은 차이가 없다는 귀무가설에 대한 강력한 반증이라고 판단할 수 있습니다.

제품 콘셉트의 선호도에 대한 가상의 데이터 AA를 이용해 실제 일원분산분석법을 적용해 보았습니다. 아래 분산분석표에서 df는 자유도이고 sum sq는 제곱합을 의미합니다. mean sq는 제곱합을 자유도로 나눈 평균 제곱합합니다. 분산분석표에서 p-value가 0.0002로 나와 제품 콘셉트 후보들에 대한 호감도에는 차이가 있다고 판단할 수 있습니다.

이제 제품 콘셉트들의 호감도에 차이가 있다는 것이 밝혀졌으니 어떤 콘셉트의 호감도가 높은지 파악해 보겠습니다.. 그런데 단순한 이표본 검정절차를 사용하게 되면 유의수준을 제어할 수 없으므로 이러한 문제를 해결하기 위해 다양한 검정 절차가 개발되어 있습니다. 그 중 직관적으로 이해하기 쉬운 절차로는 Bonferroni 검정이 있습니다. Bonferroni 검정은 의사결정의 기준으로 개별적으로 허용한 유의수준을 검정한 횟수로 나눈 값을 활용하는 방법입니다. R에서 Bonferroni 검정을 수행한 결과 제품 콘셉트 후보 B와 C의 호감도 차이는 통계적으로 유의하지 않으며 A의 호감도가 다른 제품 콘셉트 후보에 비해 높은 것으로 나타났습니다.

          궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

 

'야행하는 리서치' 카테고리의 다른 글

47. 분산분석 ③  (0) 2018.05.07
46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
44. 분산분석 ①  (0) 2018.01.03
43. 독립표본의 검정과 쌍체 비교  (0) 2017.09.25
42. 이표본 가설검정 ③  (0) 2017.09.13
Posted by dooka
,