데이터 분석 기술 블로그

Conditional Probability (조건부 확률) 본문

데이터 사이언스/수리 통계학

Conditional Probability (조건부 확률)

데이터분석가 이채은 2025. 3. 10. 13:22

조건부 확률

조건부 확률(Conditional Probability)은 어떤 사건 가 발생했을 때, 다른 사건 가 발생할 확률을 의미한다. 즉, 주어진 정보가 있을 때 확률이 어떻게 변하는지를 나타내는 개념이다.

 

사건 가 발생했을 때, 가 발생할 확률은 다음과 같이 정의된다:

여기서:

  • P(A∣B): 가 발생한 조건에서 A가 발생할 확률
  • P(A∩B): 가 동시에 발생할 확률
  • P(B): 가 발생할 확률 (단, P(B) > 0 이어야 함)

예제 1: 주사위 문제

문제: 주사위를 던졌을 때, 짝수가 나왔다고 할 때, 그 값이 4일 확률을 구하라.

 

풀이:

  • A = "4가 나오는 사건" → A = {4}
  • B = "짝수가 나오는 사건" → B = {2, 4, 6}
  • 전체 주사위 경우의 수: 6개
  • 짝수가 나올 확률: P(B) = 3/6 = 1/2
  • 짝수이면서 4가 나오는 확률: P(A∩B) = 1/6

공식 적용:

P(A∣B) = P(A∩B) / P(B) = 1/6 ÷ 1/2 = 1/3

즉, 짝수가 나왔을 때, 그 값이 4일 확률은 1/3이다.


예제 2: 질병 검사 문제

문제: 한 병원에서 특정 질병에 대한 검사 결과를 분석했다.

  • 실제로 질병이 있을 확률: P(D) = 0.01 (1%)
  • 질병이 있을 때, 검사 결과가 양성일 확률: P(T∣D) = 0.95
  • 질병이 없을 때, 검사 결과가 양성일 확률: P(T∣D^c) = 0.05
  • 전체 인구에서 질병이 없을 확률: P(D^c) = 0.99

 

풀이:
베이즈 정리를 이용해 계산해야 하지만, 조건부 확률 공식으로도 풀 수 있다:

P(D∣T) = P(T∣D)P(D) / P(T)

전체 확률의 법칙을 이용해서 P(T)를 먼저 구하자:

P(T) = P(T∣D)P(D) + P(T∣D^c)P(D^c) = (0.95 × 0.01) + (0.05 × 0.99) = 0.0095 + 0.0495 = 0.059

이제 베이즈 정리를 적용:

P(D∣T) = 0.95 × 0.01 ÷ 0.059 = 0.0095 / 0.059 ≈ 0.161

즉, 검사 결과가 양성이 나와도 실제로 질병이 있을 확률은 약 16.1%밖에 안 된다.
이런 이유 때문에 의료 진단에서는 양성 예측도 (PPV)를 따로 고려해야 한다.


조건부 확률의 활용

  • 의학 검사: 특정 질병이 있을 확률을 검사 결과를 바탕으로 예측
  • 스팸 필터링: 이메일의 특정 단어가 포함되었을 때, 스팸일 확률을 계산
  • 머신러닝: 확률 기반 분류 (예: 나이브 베이즈 분류기)