데이터 분석 기술 블로그

4. 기술 통계와 추론 통계 : 기술 통계 본문

데이터 분석

4. 기술 통계와 추론 통계 : 기술 통계

데이터분석가 이채은 2024. 8. 1. 09:00

기술 통계란 문자 그대로 주어진 데이터의 특성을 사실에 근거해 설명하고 묘사하는 것입니다.

기술(통계) = descriptive = 서술(묘사)하는, 사실에 근거한, 설명적인, 도형의

 

가장 기본적인 방법은 그 데이터의 대푯값을 설명하는 것입니다. 대푯값에는 평균(average), 중앙값(median), 최빈값(mode) 등이 있습니다. 또한 평균에는 가중평균, 기하평균, 조화평균 등 다양한 기법이 존재합니다. 

 

예를 들어, 학생들의 몸무게를 설명(기술 통계)할 때, 일일이 몸무게를 나열하는 것은 의미가 없고 남자 학생의 평균 몸무게는 70kg, 여자 학생의 평균 몸무게는 49kg 이런 식으로 평균 몸무게를 설명한다면 누구나 쉽게 이 집단의 키를 파악할 수 있습니다. 

 

데이터를 설명하는 방법 중에 각각의 값이 퍼진 정도, 최댓값과 최솟값의 범위든 다양한 방법이 있는데 이렇게 기술 통계를 내는 것을 데이터 과학에서는 EDA(Exploratory Data Analysis, 탐색적 데이터 분석)라고 합니다.

 

예를 들어, 평균 몸무게가 같더라도 대부분이 65~75kg인 A반과 55~85kg 대로 넓게 분포한 B반은 분명 특성이 다르기 때문에 이러한 요소도 수치적으로 설명이 필요합니다.

 

기술 통계는 보통 그림이나 그래프를 통해 표현하는 시각화를 많이 사용합니다. 시각화는 정보를 효과적으로 전달할 수 있는 중요한 방법이기 때문입니다.

산점도, 박스 플롯, 히스토그램