데이터 분석 기술 블로그

The Categorical Distribution (범주형 분포) 본문

데이터 사이언스/수리 통계학

The Categorical Distribution (범주형 분포)

데이터분석가 이채은 2025. 3. 17. 10:51

범주형 분포

범주형 분포(Categorical Distribution)는 세 개 이상의 범주를 가지는 이산 확률 분포이다.
즉, 여러 개의 가능한 결과 중 하나가 발생하는 경우를 모델링하는 데 사용된다.

출처: https://michael-franke.github.io/intro-data-analysis/selected-discrete-distributions-of-random-variables.html


범주형 분포란?

범주형 분포는 베르누이 분포의 확장판이다.

  • 베르누이 분포: 두 가지 결과(예: 앞면 vs 뒷면)만 존재
  • 범주형 분포: 세 개 이상의 결과(예: 주사위 눈금, 여러 선택지 중 하나)

확률 변수가 k개의 서로 다른 범주를 가질 때 사용한다.


범주형 분포의 확률 질량 함수 (PMF)

확률 변수가 Xk개의 가능한 범주를 가질 때, 범주형 분포는 이렇게 표현된다.

각 범주 i에 대한 확률은:

각 범주의 확률을 더하면 항상 1이 되어야 한다.


기댓값과 분산

범주형 분포의 기댓값은 개별 확률과 범주의 값을 이용해서 계산된다.


범주형 분포의 활용

  • 자연어 처리 (NLP): 단어를 카테고리로 분류 (예: 단어 하나가 문장에서 등장할 확률)
  • 게임 확률 계산: 보드 게임에서 특정 이벤트가 발생할 확률 계산
  • 마케팅: 고객이 특정 브랜드를 선택할 확률 모델링

범주형 분포는 다항 분포(Multinomial Distribution)의 기본 단위이다.


예제: 주사위 던지기

일반적인 6면 주사위를 던질 때, 각 면이 나올 확률이 같다면:

주사위의 각 숫자는 동일한 확률로 나온다.