데이터 분석 기술 블로그

데이터 그룹으로 묶기 _ Lv1 * 본문

SQL/문제풀이

데이터 그룹으로 묶기 _ Lv1 *

데이터분석가 이채은 2024. 8. 21. 09:00

 

Solution

SELECT  quartet,
        ROUND(AVG(x), 2) AS x_mean,
        ROUND(VARIANCE(x), 2) AS x_var,
        ROUND(AVG(y), 2) AS y_mean,
        ROUND(VARIANCE(y), 2) AS y_var
FROM    points
GROUP BY quartet;

 

새로운 열을 추가하고 싶다면 SELECT에 넣으면 된다.

 

GROUP BY 절이 나온다. GROUP BY는 데이터를 특정 기준으로 묶어 여러 행을 하나의 그룹으로 만들 때 사용한다. 여기서는 quartet이 4가지가 있다고 나오기 때문에 4가지를 나눠서 각각 x_mean, x_var, y_mean, y_var을 구해야 하므로 사용했다.

 

여기서 모분산이 아니라 표본분산을 구해야 한다고 한다. VARIANCE 함수를 사용하면 된다.

  • 모분산(Population Variance): 모분산은 전체 모집단의 분산을 계산할 때 사용된다. 모든 데이터를 알고 있는 경우, 즉 전체 모집단에 대해 계산하는 경우 사용된다. 

  • 표본분산(Sample Variance): 표본분산은 모집단의 일부 표본을 사용해 분산을 추정할 때 사용된다. 전체 모집단을 알 수 없고, 일부 표본만 가지고 있을 때, 그 표본에서 분산을 계산할 때 사용된다.