'House of Bones' 카테고리의 다른 글
House of Bones Episode7 (0) | 2018.05.20 |
---|---|
House of Bones episode6 (0) | 2018.05.13 |
House of Bones Episode4 (0) | 2018.05.06 |
House of Bones Episode3 (0) | 2018.05.06 |
House of Bones Episode2 (0) | 2018.01.26 |
House of Bones Episode7 (0) | 2018.05.20 |
---|---|
House of Bones episode6 (0) | 2018.05.13 |
House of Bones Episode4 (0) | 2018.05.06 |
House of Bones Episode3 (0) | 2018.05.06 |
House of Bones Episode2 (0) | 2018.01.26 |
데이터를 분석하다 보면 입력내용이 없을 경우, 이것을 ‘null’로 처리할지 아니면 ‘0’으로 처리할지 고민해야 할 때가 있습니다. 우선 ‘null'과 ’0‘값을 구분해 보도록 하겠습니다. 'null'은 말 그대로 입력값이 없기 때문에 분석 시 사례에 포함하지 않고, ’0‘값은 사례에 포함하여 데이터 분석에 반영해야 합니다. 아래 데이터를 보면 ’0‘값을 포함한 A2 변수에서는 ’0‘값을 포함하여 평균을 계산한 반면, null'이 있는 A1 변수에서는 평균 계산 시 'null'인 사례를 제외하고 평균을 계산함을 확인할 수 있습니다.
’null'과 ‘0'을 구분하여 데이터를 처리하는 기준은 의사결정에 필요한 정보가 무엇인가 될 것입니다. 사례를 통해 좀 더 자세히 알아보겠습니다. 가상의 지방자치단체 A시와 B시가 있고 A시와 B시에는 각각 10개의 협동조합이 있다고 가정해 보겠습니다. A시와 B시에 있는 협동조합들의 경력단절 여성 고용현황은 아래와 같습니다. 협동조합 전체 근로자 중 10%가 근무하기 전 경력단절 여성이었음을 알 수 있습니다.
이제 ‘0’으로 처리하는 경우와 ‘null’로 처리하는 경우와 로 나누어 A시와 B시의 경력단절 여성 근로자 평균 인원을 비교해 보겠습니다. 먼저 경력단절 여성을 고용하지 않은 경우 ‘0’을 입력하고 데이터를 분석해 보면, 경력단절 여성 근로자 수를 전체 근로자 수로 나눠 산출한 경력단절 여성 고용율은 A시와 B시 모두 10%임을 확인할 수 있습니다.
만약 사회적협동조합의 경력단절여성 고용 촉진을 고려하고 있는 A시와 B시의 정책담당자들은 경력단절여성 고용율 평균만을 의사결정을 위한 정보로 활용한다면 정책 방향의 차이가 별로 없을 것입니다.
이와 같이 경력단절여성을 고용하지 않은 경우에 '0'값으로 처리하는지 아니면 ‘null'값으로 처리하는지에 따라 A시와 B시의 사회적협동조합 경력단절여성 고용율이 차이가 큰 이유는 조합별 경력단절여성 고용 인원 수 뿐만 아니라 경력단절여성을 고융한 사회적협동조합의 수에도 차이가 크기 때문입니다.
경력단절여성을 고용하지 않은 경우를 'null'로 처리했을 때 A시와 B시의 차이는 사회적협동조합의 경력단절여성 고용 촉진을 위한 정책 처방 역시 A시와 B시가 달라야 함을 시사합니다. 그러므로 경력단절여성 비고용인 경우에 ‘0’으로 처리하여 경력단절여성 고용율 평균마을 제시할 것이 아니라 경력단절여성 고용 여부와 경력단절여성을 고용한 사회적 협동조합의 경력단절여성 근로자의 인원 현황을 함께 제시하는 것이 바람직합니다.
A시는 전체 사회적협동조합의 80%가 경력단절여성을 고용하고 있으며, 경력단절여성을 고용한 협동조합의 경력단절여성 근로자 인원 평균은 1.3명입니다. 반면, B시는 전체 사회적협동조합의 20%만이 경력단절여성을 고용하고 있지만, 경력단절여성을 고융한 협동조합의 경력단절여성 근로자 인원 평균은 5명입니다.
이를 근거로 보면 A시가 사회적협동조합의 경력단절여성 고용을 촉진하기 위해서는 경력단절여성을 이미 채용하고 있는 사회적협동조합의 추가 고용을 축진할 수 있는 정책처방이 필요한 반면,B시의 경우는 사회적협동조합의 경력단절여성 신규채용을 촉진할 수 있는 정책처방이 필요함을 알 수 있습니다.
이와 같이 데이터를 분석하기 전에 결측값을 ‘null'로 처리할지, ’0‘로 처리할지 여부는 의사결정을 위해 제공해야할 정보가 무엇인가를 근거로 판단해야 합니다.
궁금한 점이 있으면 아래 버튼을 클릭해 주십시오.
50. 회귀분석 ① (0) | 2018.08.06 |
---|---|
49. AHP(Analytical Hierarchy Process)에 대한 이해 (1) | 2018.07.06 |
47. 분산분석 ③ (0) | 2018.05.07 |
46. 리서처가 바라본 빅 데이터 (0) | 2018.03.15 |
45. 분산분석 ② (0) | 2018.03.15 |
세 가지 제품별 광고에서 정보 전달 중심의 광고 크리에이티브와 이미지 중심의 광고 크리에이티브에 따라 제품 광고에 대한 선호도가 달라지는지가 문제가 되는 경우를 생각해 보겠습니다. 이렇게 관심 있는 요인이 2개인 분산분석을 이원분산분석법(이원배치법; two-way ANOVA)이라고 합니다. 이원분산분석법에서 제품과 광고 크리에티브 유형이 모델 선호도에 미치는 영향을 알아보기 위해서는 3×2 경우의 서로 다른 제품과 서로 다른 지향의 광고 시안을 만들어 전체 표본에 대해 무작위로 3×2개의 광고 시안을 무작위로 노출하여 선호도를 평가합니다.
이원분산분석법에서는 두 요인의 교호작용(interaction)에 따라 종속변수의 반응이 달라지는지 살펴 볼 수 있습니다. 사례에서 교호작용이 없다면 두 광고 유형간의 제품별 광고 선호도에 차이가 있지만 제품 광고별 선호도 차이가 각 광고유형별로 동일하게 나타날 것입니다. 만약 정보 지향 광고에서 전문적 권위를 보유한 정보원(information source)을 좀 더 선호하는 경향이 있기 때문에 교호작용이 있다고 한다면 정보 지향 광고에서의 제품 광고 간 선호도 차이가 이미지 지향 광고에서의 제품 광고 간 선호도 차이보다 더 크게 나타나게 될 것입니다.
R에서 이원분산분석법을 적용한 결과는 아래와 같습니다. 사례에서 활용한 데이터에서는 광고 제품 간 호감도는 통계적으로 유의미한 차이를 보이지만 광고 크리에이티브 유형 및 광고 크리에이티브 유형와 광고 제품 상호간의 교호작용은 유의미하지 않은 것으로 나타났습니다.
제품 광고 사례에서 R을 이용해 응답자가 제품 사용 빈도가 높은 사용자(heavy user) 인지 아니면 그렇지 않은 사용자(light user) 인지에 따라 광고 선호도에 차이가 있는지를 알고 싶다면 위 R 명령어에서 교호작용 항을 삭제하고 실행하면 됩니다. 그런데 이 경우 분석절차는 반복이 없는 이분산분석법과 동일하지만 실제 설문조사를 진행하는 방법은 매우 다릅니다. 광고 유형별 광고 모델 선호도 차이를 알기 위해 광고 유형과 광고 제품의 조합만큼의 처리(treatment)를 생성해서 무작위로 표본에 노출했습니다. 그러나, 조사 대상 응답자가 heavy user인지 light user인지 여부는 조사설계자가 임의로 응답자에게 부여할 수 있는 속성이 아닙니다. 그러므로 응답자의 사용빈도 유형과 광고 제품의 조합만큼의 처리를 만들어낸다는 것 자체가 불가능합니다. 다만, 응답자를 구획화(blocking)해서 분류할 수 있을 뿐입니다. 이를 반복이 없는 이원분산분석과 구별하여 확률구획법(RBD; Randomized Block Design)이라고 합니다. 이원분산분석법이 통제집단 사후측정설계라면 RBD는 비동질적 통제집단 설계라고 할 수 있습니다.
사례에 해당하는 가상의 데이터를 활용해 분석한 결과 응답자 유형에 따른 에 따른 제품 컨셉트별 선호도의 차이는 없는 것으로 나타났습니다.
궁금한 점이 있으면 아래 버튼을 클릭해 주십시오.
49. AHP(Analytical Hierarchy Process)에 대한 이해 (1) | 2018.07.06 |
---|---|
48. null과 0의 구분 (0) | 2018.05.07 |
46. 리서처가 바라본 빅 데이터 (0) | 2018.03.15 |
45. 분산분석 ② (0) | 2018.03.15 |
44. 분산분석 ① (0) | 2018.01.03 |