데이터 분석 기술 블로그

6. 모집단과 표본, 전수조사와 표본조사 본문

데이터 분석

6. 모집단과 표본, 전수조사와 표본조사

데이터분석가 이채은 2024. 8. 3. 09:00

모집단(population) : 분석 대상 전체의 집합

표본(sample) : 모집단의 일부를 추출한 것

전수조사 : 모집단의 자료 전체를 조사 및 분석하여 정보를 추출하는 것

표본조사 : 모집단에서 추출한 표본을 통해 모집단을 정보(평균, 표준편차 등)를 추정하고 검정하는 것

 

가장 대표적인 전수조사는 전체 국민의 투표 데이터를 통해 결과를 도출하는 선거 투표입니다.

하지만 모집단 전체를 조사하면 가장 정확하지만 비용가 시간이 많이 필요하기 때문에 표본조사를 해서 모집단의 결과를 유추하는 여론조사를 합니다. 여론조사는 적은 표본만으로도 최대한 높은 정확도를 이끌어 내는 것이 중요합니다.

전수조사와 표본조사 개념 예시 <출처 : 데이터 분석가가 반드시 알아야 할 모든것>

효과적인 표본조사

표본 추출을 잘해야 합니다. 표본 추출은 다양한 방법이 있는데, 데이터의 형태나 분포에 따라 올바른 방법을 선택해야 합니다. 전체 모수를 반영하지 못하고, 편향된 표본을 추출하면 적은 표본입에도 높은 모집단의 대표성을 가진 표본보다 덜 정확하게 예측합니다.

 

올바른 표본추출의 힘의 좋은 예시로 루스벨트(Franklin Roosevelt)와 랜던(Alfred Landon) 후보가 대통령 선거 경합을 벌이고 있었는데 '리터러리 다이제스트(Literary Digest)'라는 잡지 회사가 약 1,000만 명의 표본조사를 하여 237만 명의 데이터를 수집해 랜던이 56% 지지율로 당선될 것을 예측합니다. 반면 당시 작은 여론조사 기관인 갤럽은 단지 1,500명의 표본조사를 통해 루스벨트가 56% 지지율로 당선될 것을 예측했습니다. 갤럽의 예측이 맞았는데 당시 다이제스트는 중산층 이상이 유선전화 가입자와 자동차 소유자들을 표본으로 추출했고 갤럽은 최대한 다양한 계층의 유권자들에게 분산하여 여론조사를 실시했습니다.

 

표본 추출 방법 하나까지도 데이터과학의 성과에 큰 영향을 줍니다. 따라서 모수와 표본의 개념과 추출 원리를 확실하게 이해할 필요가 있습니다. 하지만 전체의 빅데이터를 활용한다고 해서 실제 모수를 대표하는 것은 아니고, 머신러닝 모델링의 예측력이나 분류 정확도가 높아지는 것은 아닙니다. 데이터에는 다양한 편향과 이상치들이 존재하기 때문에 이를 효과적으로 제거한 표본을 추출해야 합니다. 최대한 모집단의 특성을 반영할 수 있도록 표본을 추출하는 기술이 무엇보다 중요합니다.