데이터 분석 기술 블로그

7. 표본조사의 필요성과 데이터과학 적용 방법 본문

데이터 분석

7. 표본조사의 필요성과 데이터과학 적용 방법

데이터분석가 이채은 2024. 8. 4. 09:00

표본조사의 필요성

분석 모델링에서는 수많은 테스트와 검증이 필요하고, 머신러닝 모델에서는 데이터를 가공할 때에 원하는 데이터 구조를 완성시키기 위해 여러 번의 시행착오를 거쳐야 합니다. 이 모든 단계를 전체 데이터로 수행하려면 많은 시간과 비용이 소모되기 때문에 모든 데이터를 사용하는 것은 비효율 적입니다. 

 

최종 분석에서는 전체 데이터를 사용하는 게 정확성 측면에서 좋을 수 있지만, 분석 모델이 완성될 때까지는 표본 데이터를 활용하는 것이 경제적으로나 시간적으로 유리합니다. 일반적으로는 최소 200개 이상 표본이 있으면 분석이 가능합니다. 통계적으로는 변수 하나당 최소 30개의 관측치가 필요하므로 예를 들어 10개의 변수를 사용하는 예측 모델을 만들려면 최소 300개의 표본 관측치를 가지고 있어야 합니다. 분석 모델에서는 데이터 가공이나 변환이 자주 일어나기 때문에 적절한 표본을 추출해서 진행하고 전체 프로세스가 완성되면 전체 데이터를 사용해서 예측 및 분류를 하는 것이 좋습니다.

 

모집단에 대한 정확한 파악이 불가능하거나 자동차 충격 테스트처럼 파괴적인 조사가 필요할 경우에도 표본조사가 필요합니다. 한정된 표본으로 최대한 모집단과 일치하는 통계치를 산출하는 게 중요합니다.

표본 추출을 활용한 데이터 과학 프로세스


표지 재포획법(marking-and-recapture method)

표지 재포획법은 표본조사 방법 중 하나입니다. 서식지에 사는 생물들의 군집의 밀도를 파악하거나, 유동 인구를 추정할 때 사용되는 방식입니다. 포회-재포획(capture-recapture) 또는 관찰-재관찰(sight-resight) 법으로도 불립니다.

 

예를 들어, 고양시에 살고 있는 다람쥐가 총 몇 마리인지를 알아내기 위해서는 고양시에 돌아다니는 다람쥐를 모두 포획하면 전체 모집단의 수를 알 수 있지만 이 방법은 비효율적이고 비용도 많이 듭니다. 이를 보안하기 위해 고양시의 다람쥐를 일부분인 100마리를 포획하고, 알아볼 수 있도록 표식을 남기고 풀어줍니다. 며칠 뒤에 다시 무작위로 다람쥐를 100마리 포획하면 일부는 남겼던 표식이 있을 겁니다. 이렇게 표식이 있는 다람쥐의 비율을 통해 고양시의 모집단 수를 추정할 수 있습니다. 이를 수식으로 나타내면 다음과 같습니다.

N은 전체 모집단이고 100은 처음 포획한 다람쥐의 개수입니다. n은 두 번째 포획당시 표식이 남아있는 다람쥐의 개수입니다.

예를 들어, 두 번째 포획 당시 100마리 중에 10마리만 표식이 있다면 n = 10이 되고 N은 계산하면 1000마리가 됩니다.