분산분석은 독립변수로 구분하는 세 개 이상의 집단에 속한 종속변수의 평균에 차이가 있는지 검정하는 분석방법으로 원인이 되는 독립변수는 명목형이나 서열형 척도로 측정한 값이고 결과가 되는 종속변수는 등간척도나 비율척도로 측정한 값일 때 적용 가능합니다. 실험처리 요인인 독립변수가 하나인 경우를 특별히 일원분산분석법(일원배치법; one-way ANOVA)라고 합니다.

신제품 콘셉트 A, B, C에 대한 호감도의 차이를 알아보기 위한 일원분산분석 사례를 통해 분산분석에 대해 좀 더 알아보겠습니다. 일원분산분석법을 적용하기 위해서는 설문조사의 응답자들에게 무작위로 신제품 콘셉트 A, B, C를 노출함으로써 신제품 컨셉트 이외에 호감도에 영향을 미치는 요인이 여러 설문조사 응답자들에게 평균적으로 동일하게 작용하도록 제어하게 됩니다. 이런 의미에서 일원분산분석법을 완전확률화설계(Completely Randomized Design)라고도 하며, 일원분산분석법은 결국 서로 다른 k개의 모집단에서 서로 독립인 확률표본을 추출하는 것과 같습니다. 즉 일원분산분석법은 이표본 가설검정의 확장임을 알 수 있습니다.

일원분산분석법의 모집단 모형은 다음과 같이 설정할 수 있습니다. 오차항이 독립적이고 동일한 정규분포를 따르며 오차항의 평균은 0, 분산은 σ2이라고 해보겠습니다. 오차항의 기대값이 0이므로 관심 있는 독립변수 외의 다른 요인의 영향은 평균적으로 특정 방향으로의 경향성을 가지지 않는 비편향성을 보이며 독립변수의 수준에 관계없이 분산은 동일합니다.

제품 콘셉트별 호감도를 알아보기 위한 분산분석의 자료 구조는 아래와 같습니다. 콘셉트별 열에 해당하는 값들은 각 콘셉트에 대한 호감도 값들이며 제곱합은 각 제품 콘셉트 별로 개별 응답값에 각 제품 콘셉트별 호감도 평균을 차감하여 제곱한 후 그 값을 각 제품 콘셉트 별로 더한 값입니다.

 

만약 제품 콘셉트 간의 호감도에 차이가 있다면 집단 간의 분산 즉 전체 평균과 각 집단별 평균의 차이가 우연한 변동을 반영하는 집단 내 분산보다도 클 것입니다.

일원분산분석법에서는 집단 간 평균들의 분산과 집단 내 관측치들의 분산의 비율을 검정통계량으로 하여 집단 간 평균의 차이를 검정하게 됩니다. 검정통계량 F는 집단 간 분산/집단 내 분산=(집단 간 변량/자유도)(집단 내 변량/자유도)=(집단 간 제곱합/(집단의 수-1)]/[집단 내 제곱합/(전체표본크기-집단의 수)]로 정의하며, 검정통계량 F는 일원분산분석법의 가정과 F분포의 정의에 의해 F분포를 따르게 됩니다. 일원분산분석법의 검정통계량 F는 집단 간 분산과 집단 내 분산의 비율이므로 이 값이 크면 집단 간 평균의 차이가 있는 것으로 판단할 수 있습니다. 실제 조사 결과로부터 계산한 검정통계량 F값을 주어진 자유도와 유의수준 하에서의 임계치와 비교하여 계산한 F값이 임계치보다 크다면 집단 간 평균은 차이가 없다는 귀무가설에 대한 강력한 반증이라고 판단할 수 있습니다.

제품 콘셉트의 선호도에 대한 가상의 데이터 AA를 이용해 실제 일원분산분석법을 적용해 보았습니다. 아래 분산분석표에서 df는 자유도이고 sum sq는 제곱합을 의미합니다. mean sq는 제곱합을 자유도로 나눈 평균 제곱합합니다. 분산분석표에서 p-value가 0.0002로 나와 제품 콘셉트 후보들에 대한 호감도에는 차이가 있다고 판단할 수 있습니다.

이제 제품 콘셉트들의 호감도에 차이가 있다는 것이 밝혀졌으니 어떤 콘셉트의 호감도가 높은지 파악해 보겠습니다.. 그런데 단순한 이표본 검정절차를 사용하게 되면 유의수준을 제어할 수 없으므로 이러한 문제를 해결하기 위해 다양한 검정 절차가 개발되어 있습니다. 그 중 직관적으로 이해하기 쉬운 절차로는 Bonferroni 검정이 있습니다. Bonferroni 검정은 의사결정의 기준으로 개별적으로 허용한 유의수준을 검정한 횟수로 나눈 값을 활용하는 방법입니다. R에서 Bonferroni 검정을 수행한 결과 제품 콘셉트 후보 B와 C의 호감도 차이는 통계적으로 유의하지 않으며 A의 호감도가 다른 제품 콘셉트 후보에 비해 높은 것으로 나타났습니다.

          궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

 

'야행하는 리서치' 카테고리의 다른 글

47. 분산분석 ③  (0) 2018.05.07
46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
44. 분산분석 ①  (0) 2018.01.03
43. 독립표본의 검정과 쌍체 비교  (0) 2017.09.25
42. 이표본 가설검정 ③  (0) 2017.09.13
Posted by dooka
,

서베이몽키에서는 설문조사 결과를 다운로드 받을 수 있는 내보내기 기능을 제공하고 있습니다.

 

내보내기 기능에서는 요약 데이터, 모든 응답 데이터와 모든 개별 응답의 세 가지 유형을 제공하고 있습니다. 모든 개별 응답은 모든 응답 데이터와 유사한 형태로 특정 기준에 해당하는 개별 응답을 다운로드 받을 수 있는 기능으로 활용도는 높지 않으므로 요약 데이터와 모든 응답 데이터에 대해서만 좀 더 자세히 알아보겠습니다.

 

요약 데이터는 개별 질문 문항의 결과에 대한 차트와 집계표로 요약한 파일을 다운로드 받을 수 있는 기능으로 PDF, PPT, XLS 및 CSV의 네 가지 유형의 데이터를 제공하고 있습니다.

 

PDF 형태의 요약 데이터는 하나의 파일에 응답 결과를 차트와 집계표 형태로 제공하고 있으며 자동으로 질문별로 페이지를 나눌 수 있습니다.

 

PPT 형태의 요약 데이터는 문항별 차트와 집계표를 슬라이드별로 제공합니다. 차트와 집계표는 이미지 파일 형태로 제공되므로 편집에는 한계가 있습니다.

 

xls 형태의 요약 데이터는 문항별 결과를 sheet로 나누어 제공합니다. xls 형태의 요약 데이터는 데이터와 차트의 편집이 가능하므로 활용도가 높은 편입니다.

 

모든 응답 데이터에서는 XLS, XLS+,SPSS와 PDF의 총 네가지 파일 형식을 지원하고있습니다. XLS 형식은 엑셀에서 활성화할 수 있으며, XLS+ 형식은 다양한 통계분석 프로그램에서 활용할 수 있습니다. SPSS 형식은 대표적인 통계분석 프로그램인 SPSS에서 활용할 수 있는 SAV파일을 제공합니다. XLS 형식에서 각 셀의 응답값 유형을 실제 답변 텍스트와 수치값 중 하나로 선택할 수 있습니다.

 

XLS 형식에서 실제 답변 텍스트를 선택하면 응답값의 이름(label)을 기준으로 개별 응답을 보여 줍니다. 실제 답변 텍스트를 선택하여 다운로드 받게 되면 변수의 측도가 모두 명목형이 되기 때문에 빈도 분석 외에 다른 분석을 적용하는데에는 한계가 있습니다.

XLS 형식에서 수치값을 선택하면 개별 문항별로 변수값으로 정의한 실제 수치(value)를 기준으로 응답을 보여줍니다. 실제 답변 텍스트를 선택한 경우와는 달리 각 문항별로 원래 정의한 측도의 속성에 따라 다양한 분석을 적용할 수 있습니다. 다만, 별도로 응답값(value)에 대응하는 명칭(label)를 별도로 할당하는 작업을 해주어야 합니다.

 

만약 SPSS를 기본 분석 프로그램으로 활용하고 있는 서베이몽키 사용자라면 SPSS 형식이 지원하는 SAV파일을 다운로드받으면 편리합니다. 처음부터 각 변수 응답값(value)에 대한 명칭(label)이 지정된 상태에서 SAV 파일을 제공하기 때문에 별도의 작업 없이 바로 데이터에 대한 에디팅 및 분석 작업을 시작할 수 있습니다. 학술 및 연구 등 필요에 의해 설문조사 결과를 분석해야 하지만 전문 설문조사 에이전시의 도움을 기대할 수 없는 경우에는 업무를 줄여주는 매우 편리한 기능입니다.

 

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다!

Posted by dooka
,

 

 

'House of Bones' 카테고리의 다른 글

House of Bones episode6  (0) 2018.05.13
House of Bones episode5  (0) 2018.05.13
House of Bones Episode4  (0) 2018.05.06
House of Bones Episode3  (0) 2018.05.06
House of Bones Episode1  (0) 2018.01.15
Posted by dooka
,