- delete
- regexp
- 통계학
- distinct
- 뷰
- migrations
- drf
- update
- 이진트리
- 완전검색
- 스택
- 백트래킹
- 그리디
- Article & User
- 쟝고
- stack
- 트리
- create
- SQL
- outer join
- M:N
- 큐
- N:1
- Django
- Tree
- DB
- ORM
- count
- Vue
- Queue
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
데이터 분석 기술 블로그
Bayes' Rule (베이즈 정리) 본문
베이즈 정리
베이즈 정리(Bayes’ Rule)는 새로운 정보를 반영하여 확률을 업데이트하는 방법이다. 즉, 어떤 사건이 발생한 후, 그 원인이 특정 사건일 확률을 계산하는 데 사용된다.
여기서:
- P(A∣B): 사후 확률 (Posterior Probability)
→ 가 발생한 후, 가 발생했을 확률 (업데이트된 확률) - P(B∣A): 우도 (Likelihood)
→ 가 발생했을 때, 가 발생할 확률 - P(A): 사전 확률 (Prior Probability)
→ 추가 정보 없이, 가 발생할 확률 - P(B): 정규화 상수 (Marginal Probability)
→ B가 발생할 전체 확률 (모든 가능한 원인 고려)
이 공식은 기존 확률(사전 확률)과 새로운 정보(우도)를 조합하여 최종 확률(사후 확률)을 구하는 과정을 보여준다.
예제 1: 질병 검사 문제
문제:
- 특정 질병이 있을 확률: P(D) = 0.01 (1%)
- 질병이 있을 때 검사 결과가 양성일 확률: P(T∣D) = 0.95
- 질병이 없을 때도 검사 결과가 양성일 확률(오탐 확률): P(T∣D^c) = 0.05
- 전체 인구에서 질병이 없을 확률: P(D^c) = 0.99
풀이:
1. 전체 확률의 법칙을 사용하여 계산
P(T) = P(T∣D)P(D) + P(T∣D^c)P(D^c) = (0.95 × 0.01) + (0.05 × 0.99) = 0.0095 + 0.0495 = 0.059
2. 베이즈 정리 적용
P(D∣T) = P(T∣D)P(D) / P(T) = 0.95 × 0.01 / 0.059 = 0.0095 / 0.059 ≈ 0.161
즉, 검사가 양성이라고 해도 실제로 질병이 있을 확률은 16.1%밖에 안 된다.
이러한 확률이 낮은 이유는 질병 자체가 드물고, 검사에서 오탐(False Positive)이 발생할 가능성이 있기 때문이다.
예제 2: 스팸 필터링 문제
문제: 이메일에 단어 "무료 (free)"가 포함되어 있을 때, 이 이메일이 스팸일 확률을 구하자.
- 전체 이메일 중 스팸 메일의 비율: P(S)=0.2 (20%)
- 스팸 메일이 "무료"라는 단어를 포함할 확률: P(W∣S)=0.7 (70%)
- 정상 메일이 "무료"라는 단어를 포함할 확률: P(W∣Sc)=0.1 (10%)
- 정상 메일의 비율: P(Sc)=0.8 (80%)
이메일에 "무료"라는 단어가 등장했을 때, 이 이메일이 스팸일 확률 P(S∣W)을 구해보자.
풀이:
베이즈 정리를 적용하면,
P(S∣W) = P(W∣S)P(S) / P(W)
1단계: P(W) 계산 (전체 확률의 법칙 사용)
P(W) = P(W∣S)P(S) + P(W∣S^c)P(S^c) = (0.7 × 0.2) + (0.1 × 0.8) = 0.14 + 0.08 = 0.22
2단계: 베이즈 정리 적용
P(S∣W) = (0.7 × 0.2) / 0.22 = 0.14 / 0.22 ≈ 0.636
즉, 이메일에 "무료"라는 단어가 포함되었을 때, 이메일이 스팸일 확률은 약 63.6%이다.
(즉, 단어 하나만으로 스팸 여부를 결정할 수 없지만, 확률적으로 스팸 가능성이 높아졌음을 알 수 있다.)
베이즈 정리의 활용
베이즈 정리는 다양한 분야에서 활용된다:
- 의학 진단: 검사 결과를 기반으로 질병이 있을 확률을 추정
- 스팸 필터링: 특정 단어가 포함된 이메일이 스팸일 확률 계산
- 머신러닝: 확률 기반 분류 모델 (예: 나이브 베이즈 분류기)
- 신뢰도 분석: 범죄 수사, 금융 사기 탐지 등에서 사용
'데이터 사이언스 > 수리 통계학' 카테고리의 다른 글
Independence (독립성) (0) | 2025.03.12 |
---|---|
Conditional Probability (조건부 확률) (0) | 2025.03.10 |
Law of Total Probability (전체 확률의 법칙) (0) | 2025.03.09 |
Properties of Probability Models (확률 모델의 성질) (0) | 2025.03.08 |
Venn Diagrams (벤 다이어그램) (0) | 2025.03.07 |