구성개념 타당성은 동일개념을 다른 방법을 측정했을 경우의 상관성 정도를 의미하는 수렴적 타당성과 다른 개념에 대해 동일한 측정방법 혹은 다른 측정방법을 적용했을 경우 측정값의 차별화정도를 의미하는 차별적 타당성으로 분류할 수 있습니다. 차별적 타당성은 다변량 분석 중 요인분석을 통해 파악할 수 있습니다. 요인분석은 항목들 간의 상관관계가 높은 것끼리 묶어 공통요인을 추출하는 분석방법입니다. 일반적으로 항목의 요인적재값(factor-loading) 즉 항목 중 상위요인이 설명하는 부분이 0.6이상이면 해당요인에 속하는 것으로 판단합니다. 요인분석을 통해 원래 의도한대로 하나의 개념으로 분류한 항목들이 동일한 요인으로 잘 묶이고 다른 개념으로 분류한 항목들은 다른 요인으로 묶이면 타당성이 있는 것으로 판단하게 됩니다. 다만 요인분석은 등간척도 이상에서만 적용가능하다는 한계가 있습니다.

R을 이용해 타당성 점검을 위한 요인분석을 실시해 보겠습니다. 요인분석을 위해서는 우선 “psych" 패키지와 ”factoextra" 패키지를 설치해야 합니다. 필요한 패키지를 활성화한 후 요인분석을 실시할 데이터를 불러 옵니다.

 

 

이제 요인분석을 실시한 후 동일한 개념에 속하는 변수들이 동일 요인으로 묶이는지를 점검함으로써 측정의 타당성을 점검할 수 있습니다.

궁금하신 점이 있으면 아래 버튼을 클릭해 주세요. 성실하게 답변 드리겠습니다!

 

 

 

 

Posted by dooka
,

대학 교육 만족도 조사나 공공기관의 고객 및 직원 만족도 조사를 수행하다 보면 이 설문지는 이런 점이 문제가 좀 있는 것 같다는 생각이 들 때가 있습니다. 그런 사례를 원문을 조금 변경해 열거해 보았습니다.

 

사례에서와 같이 설문조사의 외양을 갖추고 있으나 응답자의 의견을 공정하게 질문하는 것이 아니라 응답자에게 어떤 편향성을 유도하는 내용이라면 설문조사 결과는 의사결정의 품질을 개선하는데 기여할 수 없습니다.

일반적으로 대학이나 공공기관의 고객 만족도 조사는 연간 1회 내지 2회 정도 실시하게 되는데 대체로 해당 기관의 모든 시설 및 서비스 내용을 포괄하다 보니 설문지의 분량이 조사 대상자의 인내심을 넘어서는 경우도 가끔 발생하게 됩니다. 지나치게 긴 설문지는 straight liner나 speeder와 같은 불성실응답을 양산합니다.

그러므로 어느 정도 조사결과를 축적했다면 요인분석을 통해 조작적 정의에 부합하지 않는 문항은 선별한 후 전반적 만족도에 미치는 영향과 관리 상의 중요성을 고려하여 삭제 여부를 고려해야 할 것입니다.

문항에 대한 통계적 분석 결과에도 불구하고 관리상의 중요성 등을 고려할 때 설문의 수정이 어렵다면 로테이션, 설문지 책형 구분 등 설문지의 구성을 최대한 개선하여 응답자의 불성실 응답이 설문 조사 결과에 미치는 영향을 평균적으로 제어하는 것이 좋습니다.

 

데이터테일즈에 설문조사를 의뢰하시려면 아래 버튼을 눌러주세요. 일반 문의도 환영합니다.

Posted by dooka
,

【 문제 5 】 제품만족도와 기업신뢰도라는 구성개념(construct)을 측정하기 위하여 각 구성개념별로 복수의 설문문항을 사용하였다. 제품만족도와 기업신뢰도를 독립변수로 하고 기업 수익성을 종속변수로 하는 회귀모형을 분석하고자 할 때, 두 독립변수의 측정항목을 대상으로 요인분석을 실행하여 독립변수 값으로 투입하기 위한 방법을 설명하시오.(10점)


☞ 문제 解說 5번 문제는 요인분석을 이용한 측정의 타당성 점검을 묻는 것인지, 회귀분석에서의 다중공선성에 대한 대처수단으로서의 요인분석을 묻는 것인지는 분명하지 않으나 구성개념을 측정하기 위해 설문문항을 구성했다는 지시문으로 볼 때 측정의 타당성 점검과 관련한 문제로 보입니다. 그러나, 정확하게 어떤 내용을 언급해야 할지 명확하지는 않습니다. 문제 5번과 같이 논점이 다소 분명하지 않은 경우에는 본인이 생각하는 답변 외에도 관련 내용을 간략하게나마 언급하는 것이 안전할 것입니다.


제품만족도와 기업신뢰도라는 추상적 개념을 측정도구 즉 설문이 얼마나 잘 반영하는지를 파악하기 위해 요인분석을 적용하게 됩니다. 요인분석은 변수들 간의 상관관계가 높은 것끼리 묶어 공통요인을 추출하는 다변량분석기법으로 입력변수들의 총분산을 이용해 공통요인을 추출하는 주성분분석과 입력변수들이 가지는 공통분산만을 이용해 공통요인을 추출하는 공통요인분석이 있습니다. 정보의 손실을 방지하기 위해 주성분을 적용하는 것이 일반적입니다.


요인분석 실시결과 항목의 요인적재량(factor loading)이 0.6이상이면 분석대상 변수가 해당요인에 속하는 것으로 판단하게 됩니다. 요인적재량이란 각 변수와 요인간의 상관계수로 해당 변수를 그 요인이 얼마나 잘 설명해주는가를 나타냅니다. 요인분석 결과 원래 의도한 구성개념대로 항목들이 하나의 요인으로 묶이고, 다른 개념으로 분류한 항목들이 다른 요인으로 묶이는지 파악함으로써 측정의 타당성을 점검할 수 있습니다.


제품만족도와 기업신뢰도를 구성하는 세부항목을 이루는 변수들을 회귀분석을 위한 독립변수로 활용할 경우, 독립변수들간의 강한 선형관계로 인해 회귀계수의 계산이 불가능하거나 회귀계수의 표준오차를 과장하여 검정 자체가 불가능하게 만드는 다중공선성의 문제가 발생하게 됩니다.


다중공선성의 문제를 보정하기 위한 방법으로 서로 공행하는 독립변수들을 하나의 주성분으로 통합하여 이들 주성분에 종속변수를 회귀시키는 방법이 있습니다. 주성분분석은 n개의 입력변수를 가지는 총분산을 n개의 주성분으로 다시 나타내고 총분산에 대한 설명력이 높은 순서대로 주성분요인을 추출하는 방법입니다. 주성분분석에서 원래의 변수들과 요인간의 관계를 분명히 하게 하기 위해 요인축을 회전하게 되는데 요인의 축들이 직각이 되도록 회전하게 되면 요인 간의 상관관계가 거의 없어지므로 다중공선성을 보정할 수 있습니다. 기존 독립변수 대신 주성분을 독립변수로 한 회귀분석을 실시하게 되면 주성분들 간의 독립성이 보장되므로 다중공선성의 문제를 보정할 수 있습니다.


그러나, 회귀분석에 적용한 주성분들은 원래 독립변수들의 선형결합 형태를 취하고 있기 때문에 직관적인 해석이 매우 어렵다는 취약점이 있습니다. 또한 독립변수의 총분산에 대한 설명력이 가장 높은 주성분이라고 하더라도 이것이 반드시 종속변수와 가장 높은 상관관계를 지는 것이 아니라는 한계가 있습니다.  


【 문제 6 】 층화표본추출법의 개념과 그 추출방법 2가지에 관하여 설명하시오. (10점)


추출확률이 정해져 있고 사전적으로 알 수 있어 표본추출로 인해 발생하는 오차에 대한 추정이 가능한 확률표본추출방법에는 가장 기본적인 단순임의추출 외에 층화표본추출, 체계적 추출 및 집락추출의 방법이 있습니다.


층화표본추출법은 모집단을 이질적인 몇 개의 층(stratum)으로 구분하여 각 층별로 단순임의추출을 적용하는 방법입니다. 층화표본추출법은 각 층별로 충분한 표본크기 확보가 가능하고 층간 이질성이 클 경우 조사의 정확성을 증대시킬 수 있습니다.


층화표본추출법에는 각 층의 크기만을 고려하는 비례배분과 분산까지 고려하는 최적배분의 방법이 있습니다. 비례배분은 층당 조사비용과 분산이 동일할 경우 적용하는 방법으로 각 층이 모집단에서 차지하는 비율만큼 표본을 할당하는 방법입니다.




최적배분은 허용오차한계를 제약조건으로 조사비용을 극소화하는 표본할당방법을 찾은 것입니다. 최적배분은 다시 네이만 배분(Neyman allocation)와 데밍 배분(Deming allocation)으로 구분할 수 있습니다.


네이만 배분(Neyman allocation)은 표본크기가 일정하게 주어져 있고 층마다 조사단위별 비용이 일정할 때 적용하는 방법으로 표본에 대한 할당은 각 층이 모집단에서 차지하는 비중 외에도 각 층별 분산에 비례하여 표본을 할당합니다.

 



데밍 배분(Deming allocation)은 총비용이 일정하게 주어져 있고 조사단위당 비용이 층에 따라 크게 변동할 때 적용하는 방법으로 각 층이 모집단에서 차지하는 비중이 클수록, 각 층의 분산이 클수록 표본을 보다 더 많이 할당하고 각 층의 조사단위당 비용이 높을수록 표본을 더 적게 할당하게 됩니다.




층화표본추출은 집단 간에 이질성이 존재할 경우 단순임의추출보다 더 정확하게 모집단을 대표하는 표본을 추출할 수 있습니다. 그러나, 집단을 구분하는 변수가 잘못된 경우 오히려 대표성을 저해할 수 있습니다.

Posted by dooka
,

측정의 타당성이란 측정도구가 측정하고자 하는 추상적 개념을 얼마나 잘 반영하고 있는지를 나타내는 개념입니다. 측정의 타당성은 흔히 구성개념 타당성이라고도 하며 추상적인 개념과 측정지표 간의 일치 정도를 말합니다. 

구성개념 타당성은 동일개념을 다른 방법을 측정했을 경우의 상관성 정도를 의미하는 수렴적 타당성과 다른 개념에 대해 동일한 측정방법 혹은 다른 측정방법을 적용했을 경우 측정값의 차별화정도를 의미하는 차별적 타당성으로 분류할 수 있습니다. 차별적 타당성은 다변량 분석 중 요인분석을 통해 파악할 수 있습니다.  


요인분석은 항목들간의 상관관계가 높은 것끼리 묶어 공통요인을 추출하는 분석방법입니다. 일반적으로 항목의 요인적재값(factor-loading) 즉 항목 중 상위요인이 설명하는 부분이 0.6이상이면 해당요인에 속하는 것으로 판단합니다. 요인분석을 통해 원래 의도한대로 하나의 개념으로 분류한 항목들이 동일한 요인으로 잘 묶이고 다른 개념으로 분류한 항목들은 다른 요인으로 묶이면 타당성이 있는 것으로 판단하게 됩니다. 다만 요인분석은 등간척도 이상에서만 적용가능하다는 한계가 있습니다.



측정의 타당성을 높이기 위해서는 시장과 소비자에 대한 사전 지식을 충분히 습득하고 탐색적 조사를 적극적으로 활용해야 합니다. 그리고 측정 항목은 가급적 선행조사에서 확인된 측정방법을 이용하는 것이 좋습니다.




Posted by dooka
,

2011문제 2 다음은 요인분석(factor analysis)에 관한 질문이다.

1) 요인분석의 목적과 방법에 대해 논하시오. (12)

요인분석은 여러 개체 중에서 유사한 속성을 지닌 대상을 몇 개의 집단으로 구분하여 전체 자료의 구조를 이해하고자 하는 탐색적 분석방법. 변수의 축소를 목적으로 하는 요인분석의 경우 알려진 요인을 검증하는 확인적 분석과 새로운 요인을 추출하는 탐색적 요인분석 방법이 있음. 탐색적 요인분석에는 다시 주성분분석과 공통요인분석이 있음.


2) 요인분석에 사용할 수 있는 변수들이 갖추어야 할 조건을 쓰시오.(9)

 

요인분석에 사용하는 변수는 모두 등간척도 이상의 연속형 변수여야 하며,

입력변수들은 서로 독립적인 정규분포를 따르고 변수별로 등분산가정을 충족해야 함.

관측치의 사례수는 최소한 변수의 3배 이상이 되어야 하고

입력변수 간에는 어느 정도 수준이상의 상관관계가 있어야 함.

 

3) 아이겐값(eigen value)과 커뮤낼러티(communality) 값이 갖고 있는 통계적 의미와 두 값의 관계에 대해서 설명하시오.(9)

 

요인분석에서 아이겐 값과 커뮤낼러티를 이해하기 위해서는 요인적재값(factor loading)을 알아야 함. 요인적재값(factor loading)이란 변수와 요인간의 상관계수를 의미함.

커뮤낼러티(공통성, communality)란 추출된 요인이 변수가 가지는 분산의 몇 %를 설명할 수 있는가를 나타낸 값으로 변수와 요인들 간의 요인적재값(factor loading)을 제곱한 값들의 합.

아이겐값(eigen value)란 추출한 한 요인이 설명하는 총변량으로 입력변수들의 요인적재값(factor loading)을 제곱한 값들의 합.

즉 요인적재값을 변수의 관점에서 공통요인으로 얼마나 설명할 수 있는가를 파악한 것이 커뮤낼러티라면 각 요인의 관점에서 얼마나 많은 변수를 설명하는가를 파악한 것이 아이겐값(eigen value). 요인분석에서는 일반적으로 아이겐 값이 1이상인 요인만을 선택함.   

 

<요인분석 핵심정리>

요인분석은 회귀분석과 함께 다변량 분석 중 출제될 가능성이 높은 분석방법입니다. 이미 출제된 바 있을 뿐만 아니라 시장조사 실무와 학계의 연구에서 빈번하게 활용하는 방법이므로 일별할 필요가 있겠습니다.

 

1. 요인분석의 개념

 

변수 상호간의 연관성을 분석하여, 변수들에게 공통적으로 작용하는 요인을 추출하여 전체 자료를 대변하게 하여 변수의 수를 줄이는 분석방법


 

2. 요인분석의 기본가정

 

요인분석에서 사용하는 변수들은 모두 연속형 변수

(등간척도나 비율척도로 측정한 양적 변수)

입력변수들은 서로 독립적인 정규분포를 따르고 변수별로 분산은 모두 동일

응답자(관측치)의 수는 입력변수 수의 3배 이상

요인분석에 사용되는 입력변수 간에는 어느 정도 수준 이상의 상관관계가 있어야 함.

- KMO(Kaiser Meyer Olkin) 0.5 이상. Bartlett test에서 p-value가 유의수준 0.1 이하

 

3. 요인분석을 위한 기본개념

요인부하값(factor loading) 변수와 요인간의 상관계수

Communality 변수의 변량 중 분석에 포함된 요인에 의해 설명되는 비율

Eigenvalue 한 요인에 의해 설명되는 총 변량

공통분산(common variance) 한 변수가 다른 변수들과 공유하는 분산

특수분산(specific variance) 특정변수와 관련이 있는 분산

오차분산(error variance) 자료수집 단계나 측정단계에서 발생하는 오차

 

4. 추출요인 수 결정기준

 

Eigenvalue - 주성분분석에서는 eigenvalue1보다 큰 요인을 유의미한 것으로 간주. 공통요인분석에서는 1보다 기준을 약간 낮추어 고려해야 함. 공통요인분석에서communality의 평균값을 기준값으로 삼기도 함.

분석가에 의한 사전 결정

분산비율 - 자연과학분야에서는 95%의 변량을 설명할 수 있을 때까지 요인을 추출. 사회과학에서는 경우에 따라서는 총변량의 60%만 설명하더라도 만족한 해로간주.

Scree test - 특수분산의 비중이 공통분산의 비중보다 높아지는 시점에서 요인추출을 중단. eigenvalue와 요인의 수를 양축으로 그려진 그래프에서 팔꿈치 모양이 되는 곳에서 요인의 수를 결정함.  


5. 요인분석의 활용


6. 요인분석과 군집분석의 비교


군집분석은 여러 개체 중에서 유사한 속성을 지닌 대상을 몇 개의 집단으로 구분하여 전체 자료를 이해하고자 하는 탐색적 분석방법.

 



Posted by dooka
,