데이터 분석 기술 블로그

Bayes' Rule (베이즈 정리) 본문

데이터 사이언스/수리 통계학

Bayes' Rule (베이즈 정리)

데이터분석가 이채은 2025. 3. 11. 14:14

베이즈 정리

베이즈 정리(Bayes’ Rule)는 새로운 정보를 반영하여 확률을 업데이트하는 방법이다. 즉, 어떤 사건이 발생한 후, 그 원인이 특정 사건일 확률을 계산하는 데 사용된다.

여기서:

  • P(A∣B): 사후 확률 (Posterior Probability)
    가 발생한 후, 가 발생했을 확률 (업데이트된 확률)
  • P(B∣A): 우도 (Likelihood)
    가 발생했을 때, 가 발생할 확률
  • P(A): 사전 확률 (Prior Probability)
    → 추가 정보 없이, 가 발생할 확률
  • P(B): 정규화 상수 (Marginal Probability)
    B가 발생할 전체 확률 (모든 가능한 원인 고려)

이 공식은 기존 확률(사전 확률)과 새로운 정보(우도)를 조합하여 최종 확률(사후 확률)을 구하는 과정을 보여준다.


예제 1: 질병 검사 문제

문제:

  • 특정 질병이 있을 확률: P(D) = 0.01 (1%)
  • 질병이 있을 때 검사 결과가 양성일 확률: P(T∣D) = 0.95
  • 질병이 없을 때도 검사 결과가 양성일 확률(오탐 확률): P(T∣D^c) = 0.05
  • 전체 인구에서 질병이 없을 확률: P(D^c) = 0.99

 

풀이:

1. 전체 확률의 법칙을 사용하여 계산

P(T) = P(T∣D)P(D) + P(T∣D^c)P(D^c) = (0.95 × 0.01) + (0.05 × 0.99) = 0.0095 + 0.0495 = 0.059

 

2. 베이즈 정리 적용

P(D∣T) = P(T∣D)P(D) / P(T) = 0.95 × 0.01 / 0.059 = 0.0095 / 0.059 ≈ 0.161

 

즉, 검사가 양성이라고 해도 실제로 질병이 있을 확률은 16.1%밖에 안 된다.
이러한 확률이 낮은 이유는 질병 자체가 드물고, 검사에서 오탐(False Positive)이 발생할 가능성이 있기 때문이다.


예제 2: 스팸 필터링 문제

문제: 이메일에 단어 "무료 (free)"가 포함되어 있을 때, 이 이메일이 스팸일 확률을 구하자.

  • 전체 이메일 중 스팸 메일의 비율: P(S)=0.2 (20%)
  • 스팸 메일이 "무료"라는 단어를 포함할 확률: P(W∣S)=0.7 (70%)
  • 정상 메일이 "무료"라는 단어를 포함할 확률: P(W∣Sc)=0.1 (10%)
  • 정상 메일의 비율: P(Sc)=0.8 (80%)

    이메일에 "무료"라는 단어가 등장했을 때, 이 이메일이 스팸일 확률 P(S∣W)을 구해보자.

 

풀이:
베이즈 정리를 적용하면,

P(S∣W) = P(W∣S)P(S) / P(W)

1단계: P(W) 계산 (전체 확률의 법칙 사용)

P(W) = P(W∣S)P(S) + P(W∣S^c)P(S^c) = (0.7 × 0.2) + (0.1 × 0.8) = 0.14 + 0.08 = 0.22

 

2단계: 베이즈 정리 적용

P(S∣W) = (0.7 × 0.2) / 0.22 = 0.14 / 0.22 ≈ 0.636

즉, 이메일에 "무료"라는 단어가 포함되었을 때, 이메일이 스팸일 확률은 약 63.6%이다.
(즉, 단어 하나만으로 스팸 여부를 결정할 수 없지만, 확률적으로 스팸 가능성이 높아졌음을 알 수 있다.)


베이즈 정리의 활용

베이즈 정리는 다양한 분야에서 활용된다:

  1. 의학 진단: 검사 결과를 기반으로 질병이 있을 확률을 추정
  2. 스팸 필터링: 특정 단어가 포함된 이메일이 스팸일 확률 계산
  3. 머신러닝: 확률 기반 분류 모델 (예: 나이브 베이즈 분류기)
  4. 신뢰도 분석: 범죄 수사, 금융 사기 탐지 등에서 사용