'ANOVA'에 해당되는 글 3건

  1. 2018.05.07 47. 분산분석 ③
  2. 2018.03.15 45. 분산분석 ②
  3. 2018.01.03 44. 분산분석 ①

세 가지 제품별 광고에서 정보 전달 중심의 광고 크리에이티브와 이미지 중심의 광고 크리에이티브에 따라 제품 광고에 대한 선호도가 달라지는지가 문제가 되는 경우를 생각해 보겠습니다. 이렇게 관심 있는 요인이 2개인 분산분석을 이원분산분석법(이원배치법; two-way ANOVA)이라고 합니다. 이원분산분석법에서 제품과 광고 크리에티브 유형이 모델 선호도에 미치는 영향을 알아보기 위해서는 3×2 경우의 서로 다른 제품과 서로 다른 지향의 광고 시안을 만들어 전체 표본에 대해 무작위로 3×2개의 광고 시안을 무작위로 노출하여 선호도를 평가합니다.

 

 

이원분산분석법에서는 두 요인의 교호작용(interaction)에 따라 종속변수의 반응이 달라지는지 살펴 볼 수 있습니다. 사례에서 교호작용이 없다면 두 광고 유형간의 제품별 광고 선호도에 차이가 있지만 제품 광고별 선호도 차이가 각 광고유형별로 동일하게 나타날 것입니다. 만약 정보 지향 광고에서 전문적 권위를 보유한 정보원(information source)을 좀 더 선호하는 경향이 있기 때문에 교호작용이 있다고 한다면 정보 지향 광고에서의 제품 광고 간 선호도 차이가 이미지 지향 광고에서의 제품 광고 간 선호도 차이보다 더 크게 나타나게 될 것입니다.

 

 

R에서 이원분산분석법을 적용한 결과는 아래와 같습니다. 사례에서 활용한 데이터에서는 광고 제품 간 호감도는 통계적으로 유의미한 차이를 보이지만 광고 크리에이티브 유형 및 광고 크리에이티브 유형와 광고 제품 상호간의 교호작용은 유의미하지 않은 것으로 나타났습니다.

 

 

제품 광고 사례에서 R을 이용해 응답자가 제품 사용 빈도가 높은 사용자(heavy user) 인지 아니면 그렇지 않은 사용자(light user) 인지에 따라 광고 선호도에 차이가 있는지를 알고 싶다면 위 R 명령어에서 교호작용 항을 삭제하고 실행하면 됩니다. 그런데 이 경우 분석절차는 반복이 없는 이분산분석법과 동일하지만 실제 설문조사를 진행하는 방법은 매우 다릅니다. 광고 유형별 광고 모델 선호도 차이를 알기 위해 광고 유형과 광고 제품의 조합만큼의 처리(treatment)를 생성해서 무작위로 표본에 노출했습니다. 그러나, 조사 대상 응답자가 heavy user인지 light user인지 여부는 조사설계자가 임의로 응답자에게 부여할 수 있는 속성이 아닙니다. 그러므로 응답자의 사용빈도 유형과 광고 제품의 조합만큼의 처리를 만들어낸다는 것 자체가 불가능합니다. 다만, 응답자를 구획화(blocking)해서 분류할 수 있을 뿐입니다. 이를 반복이 없는 이원분산분석과 구별하여 확률구획법(RBD; Randomized Block Design)이라고 합니다. 이원분산분석법이 통제집단 사후측정설계라면 RBD는 비동질적 통제집단 설계라고 할 수 있습니다.

 

 

사례에 해당하는 가상의 데이터를 활용해 분석한 결과 응답자 유형에 따른 에 따른 제품 컨셉트별 선호도의 차이는 없는 것으로 나타났습니다.

 

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오.

                                                

 

 

 

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
48. null과 0의 구분  (0) 2018.05.07
46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
45. 분산분석 ②  (0) 2018.03.15
44. 분산분석 ①  (0) 2018.01.03
Posted by dooka
,

분산분석은 독립변수로 구분하는 세 개 이상의 집단에 속한 종속변수의 평균에 차이가 있는지 검정하는 분석방법으로 원인이 되는 독립변수는 명목형이나 서열형 척도로 측정한 값이고 결과가 되는 종속변수는 등간척도나 비율척도로 측정한 값일 때 적용 가능합니다. 실험처리 요인인 독립변수가 하나인 경우를 특별히 일원분산분석법(일원배치법; one-way ANOVA)라고 합니다.

신제품 콘셉트 A, B, C에 대한 호감도의 차이를 알아보기 위한 일원분산분석 사례를 통해 분산분석에 대해 좀 더 알아보겠습니다. 일원분산분석법을 적용하기 위해서는 설문조사의 응답자들에게 무작위로 신제품 콘셉트 A, B, C를 노출함으로써 신제품 컨셉트 이외에 호감도에 영향을 미치는 요인이 여러 설문조사 응답자들에게 평균적으로 동일하게 작용하도록 제어하게 됩니다. 이런 의미에서 일원분산분석법을 완전확률화설계(Completely Randomized Design)라고도 하며, 일원분산분석법은 결국 서로 다른 k개의 모집단에서 서로 독립인 확률표본을 추출하는 것과 같습니다. 즉 일원분산분석법은 이표본 가설검정의 확장임을 알 수 있습니다.

일원분산분석법의 모집단 모형은 다음과 같이 설정할 수 있습니다. 오차항이 독립적이고 동일한 정규분포를 따르며 오차항의 평균은 0, 분산은 σ2이라고 해보겠습니다. 오차항의 기대값이 0이므로 관심 있는 독립변수 외의 다른 요인의 영향은 평균적으로 특정 방향으로의 경향성을 가지지 않는 비편향성을 보이며 독립변수의 수준에 관계없이 분산은 동일합니다.

제품 콘셉트별 호감도를 알아보기 위한 분산분석의 자료 구조는 아래와 같습니다. 콘셉트별 열에 해당하는 값들은 각 콘셉트에 대한 호감도 값들이며 제곱합은 각 제품 콘셉트 별로 개별 응답값에 각 제품 콘셉트별 호감도 평균을 차감하여 제곱한 후 그 값을 각 제품 콘셉트 별로 더한 값입니다.

 

만약 제품 콘셉트 간의 호감도에 차이가 있다면 집단 간의 분산 즉 전체 평균과 각 집단별 평균의 차이가 우연한 변동을 반영하는 집단 내 분산보다도 클 것입니다.

일원분산분석법에서는 집단 간 평균들의 분산과 집단 내 관측치들의 분산의 비율을 검정통계량으로 하여 집단 간 평균의 차이를 검정하게 됩니다. 검정통계량 F는 집단 간 분산/집단 내 분산=(집단 간 변량/자유도)(집단 내 변량/자유도)=(집단 간 제곱합/(집단의 수-1)]/[집단 내 제곱합/(전체표본크기-집단의 수)]로 정의하며, 검정통계량 F는 일원분산분석법의 가정과 F분포의 정의에 의해 F분포를 따르게 됩니다. 일원분산분석법의 검정통계량 F는 집단 간 분산과 집단 내 분산의 비율이므로 이 값이 크면 집단 간 평균의 차이가 있는 것으로 판단할 수 있습니다. 실제 조사 결과로부터 계산한 검정통계량 F값을 주어진 자유도와 유의수준 하에서의 임계치와 비교하여 계산한 F값이 임계치보다 크다면 집단 간 평균은 차이가 없다는 귀무가설에 대한 강력한 반증이라고 판단할 수 있습니다.

제품 콘셉트의 선호도에 대한 가상의 데이터 AA를 이용해 실제 일원분산분석법을 적용해 보았습니다. 아래 분산분석표에서 df는 자유도이고 sum sq는 제곱합을 의미합니다. mean sq는 제곱합을 자유도로 나눈 평균 제곱합합니다. 분산분석표에서 p-value가 0.0002로 나와 제품 콘셉트 후보들에 대한 호감도에는 차이가 있다고 판단할 수 있습니다.

이제 제품 콘셉트들의 호감도에 차이가 있다는 것이 밝혀졌으니 어떤 콘셉트의 호감도가 높은지 파악해 보겠습니다.. 그런데 단순한 이표본 검정절차를 사용하게 되면 유의수준을 제어할 수 없으므로 이러한 문제를 해결하기 위해 다양한 검정 절차가 개발되어 있습니다. 그 중 직관적으로 이해하기 쉬운 절차로는 Bonferroni 검정이 있습니다. Bonferroni 검정은 의사결정의 기준으로 개별적으로 허용한 유의수준을 검정한 횟수로 나눈 값을 활용하는 방법입니다. R에서 Bonferroni 검정을 수행한 결과 제품 콘셉트 후보 B와 C의 호감도 차이는 통계적으로 유의하지 않으며 A의 호감도가 다른 제품 콘셉트 후보에 비해 높은 것으로 나타났습니다.

          궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

 

'야행하는 리서치' 카테고리의 다른 글

47. 분산분석 ③  (0) 2018.05.07
46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
44. 분산분석 ①  (0) 2018.01.03
43. 독립표본의 검정과 쌍체 비교  (0) 2017.09.25
42. 이표본 가설검정 ③  (0) 2017.09.13
Posted by dooka
,

지난 포스팅에서 우리는 이표본에서의 모평균 비교에 대한 가설검정을 알아보았습니다. 그렇다면 비교 대상이 두 집단보다 커지는 경우에는 어떤 분석이 가능할지 생각해고자 합니다. 고등학생들을 대상으로 한 스터디 카페를 운영하는 기업에서 광고 모델 후보로 유명 연예인 A와 교육 전문가 B, 그리고 고등학생 자녀를 둔 일반 학부모 C를 고려하고 있으며 고등학생 자녀를 둔 학부모를 대상으로 설문조사를 실시하고 그 결과에 따라 A, B, C 중 한 명을 광고 모델로 선정하기로 했다고 가정해 보겠습니다.

 이들 후보 A, B, C에 대한 호감도에 차이가 있는지 여부를 알아보기 위해 각각 이표본 가설검정 절차를 적용한다면 A와 B, A와 C, B와 C를 비교한 총 3회의 가설검정 절차를 거쳐야 합니다. 각각의 검정 절차에서 유의수준을 5%로 제어할 경우, 총 3회의 가설검정에서 단 한번이라도 잘못해서 귀무가설을 기각할 제1종 오류를 범할 확률은 5%를 상회합니다.

 각각의 검정에 대해 제1종 오류를 범할 확률의 상한인 유의수준이 5%라고 하면 귀무가설이 참일 때 귀무가설을 기각하지 않을 확률의 최소 95%가 되고 총 세 가지의 검정별로 귀무가설이 참일 때 가능한 의사결정 유형의 확률을 정리해 보면 좋은 의사결정이 되기 위해서는 세 가지 의사결정에서 모두 귀무가설이 참일 때 귀무가설을 기각하지 말아야 하고 이 확률은 95%가 아니라 95%×95%×95%=86% 입니다. 또한, 검정 절차 중 어느 하나라도 잘못해서 귀무가설을 기각할 확률은 14%에 이르게 됩니다. 이처럼 세 집단 이상인 경우 이표본 가설검정 절차를 적용하면 가설검정의 오류를 관리하는 것이 쉽지 않습니다.

 

                                                  

 

 세 집단 이상 비교에서 가설검정의 오류를 효율적으로 제어할 수 있는 분석 방법이 동시검정이 가능한 분산분석(ANOVA; Analysis of Variance)입니다. 분산분석은 독립변수로 구분하는 세 개 이상의 집단에 속한 종속변수의 평균에 차이가 있는지 검정하는 분석방법으로 원인이 되는 독립변수는 명목형이나 서열형 척도로 측정한 값이고 결과가 되는 종속변수는 등간척도나 비율척도로 측정한 값일 때 적용 가능합니다.

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

 

 

 

 

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
45. 분산분석 ②  (0) 2018.03.15
43. 독립표본의 검정과 쌍체 비교  (0) 2017.09.25
42. 이표본 가설검정 ③  (0) 2017.09.13
41. 이표본 가설검정 ②  (0) 2017.09.11
Posted by dooka
,