데이터 분석 기술 블로그

8. 표본추출에서 나타나는 편향의 종류 본문

데이터 분석

8. 표본추출에서 나타나는 편향의 종류

데이터분석가 이채은 2024. 8. 5. 17:02

표본 오차(sampling error)이란, 모집단과 표본의 자연 발생적인 변동입니다. 같은 크기의 두 개의 표본을 조심해서 추출한다고 해도 우연, 표본 수의 부족 등의 이유로 완벽하게 똑같은 표본을 얻는 것은 거의 불가능합니다. 다시 말해, 모집단의 모수와 표본의 통계량 간의 차이로 인해 통계치가 모수치의 주위에 분산되어 있는 정도를 말합니다,

 

비표본 오차(non-sampling error)이란, 표본 오차를 제외한 변동입니다. 조사원의 미숙, 자료의 그릇된 해석뿐만 아니라, 편향(bias)이 비표본 오차의 원인입니다. 

 

편향의 종류

  1. 표본추출편향(sample selection bias) : 조사 대상자를 선택하는 과정에서 특정 그룹이 과도하게 대표되거나 과소되어 전체 모집단을 제대로 반영하지 못하는 현상입니다. 예를 들어, 한 도시의 주민들의 건강 상태를 조사하기 위해 병원 방문자들을 표본으로 선택하는 경우, 병원에 자주 방문하는 사람들은 건강 문제가 있을 가능성이 높기 때문에 도시 전체의 건강 상태를 정확하게 반영하지 못할 수 있습니다.
  2. 가구편향(household bias) : 크고 작은 집단이 작고 많은 집단보다 적게 추출되는 현상입니다. 예를 들어, 가구 내 모든 사람이 특정 브랜드의 제품을 선호하는 경우, 해당 브랜드의 선호도가 과대평가될 수 있습니다.
  3. 무응답편향(non-response bias) : 조사 대상자 중 일부가 응답하지 않아 발생하는 경우입니다. 예를 들어, 소비자 만족도 조사를 진행할 때, 불만이 있는 고객들은 응답을 거부하는 경우에는 응답한 사람들만의 의견으로 만족도가 높게 나올 수 있습니다.
  4. 응답편향(response biase) : 질문의 형식, 응답자의 심리적 상태, 조사자의 태도 등 다양한 요인에 의해 질문에 대답하는 방식이 영향을 미치는 경우입니다. 예를 들어, 선거 당일 치러지는 출구 조사에서, 설문자가 사회적 시선이나 여론의 분위 때문에 조사원들의 답변에 일부러 거짓을 말해서 편향이 발생합니다. 이를 브래들리 효과라고 하는데 피조사자가 자신의 생각이나 신념을 밝히기 어려워서 거짓된 응답을 하는 현상입니다. 

표본편향을 처리하는 방법

확률화(randomization)를 통해 최소화하거나 없앨 수 있습니다. 확률화랑 모집단으로부터 편향이 발생하지 않는 표본을 추출하는 방법을 의미합니다.

 

이렇게 추출한 표본을 확률표본(random sample)이라고 합니다. 모집단에서 표본이 추출될 확률이 동등한 지에 따라 확률추출비확률추출로 구분합니다. 또, 모집단에서 이미 추출한 표본을 다시 모집단에 되돌려 놓고 추출하는지, 빼고 추출하는지에 따라 복원추출비복원추출로 구분합니다.