[인공지능] Chapter 14. Bayesian Network

인공지능/Artificial Intelligence (COSE361)

[인공지능] Chapter 14. Bayesian Network

이준언 2023. 12. 19. 18:24

Bayesian network

Bayes Net
- 복잡한 결합 분포를 간단한 조건부 분포를 통해 설명한 것
- graphical models의 한 형태
- 변수들 사이의 조건부 독립성 활용
- 특정 변수가 다른 변수들과 하는 local interaction을 그래픽으로 표현 → 복잡한 시스템을 이해하고 추론 가능
- 각 변수가 부모 변수들의 집합에 조건화된 확률 분포를 가짐 → 각각의 확률 분포는 네트워크의 노드로 표현, 변수들 사이의 의존성은 화살표로 나타남
Graphical Model Notation
- 그래픽 모델에서 변수들 사이의 의존성과 독립성을 시각적으로 나타낸 것
- Nodes: variables (with domains)
  - 노드는 변수를 의미
  - 변수는 ‘할당됨(assigned, observed)’ 또는 ‘할당되지 않음(unassigned, unobserved)’의 두가지 상태를 가짐
  - 할당됨: 관찰되거나 알려진 값이 있음
  - 할당되지 않음: 아직 관찰되지 않았거나 알려지지 않은 상태
- Arc: interactions
  - 호는 노드간의 상호작용 또는 direct influence를 나타냄
  - 방향성: 한 변수(부모 노드)가 다른 변수(자식 노드)에 영향을 줄 수 있음을 의미
  - 호가 없는 경우 (두 변수 사이에 직접적인 연결이 없는 경우)
    - 두 변수는 조건부 독립
    - 서로에 대해 영향을 주지 않음

General Formula for Sparse BNs
- n: 변수의 수
- d: 각 변수의 도메인 크기
- k: 부모 변수의 최대 개수
- O(d^n): 전체 결합 확률 분포의 크기, 모든 변수의 모든 가능한 값 조합
- O(nd^k): 베이지안 네트워크의 크기, 각 변수에 대한 조건부 확률 분포
Conditional Independence Semantics
- 베이지안 네트워크에서 각 변수는 그 부모 변수의 값에만 의존하고 다른 변수들과는 독립적인 관계를 가짐

Exact inference

Inference by Enumeration in Bayes Net
- Inference by enumeration
  - 베이지안 네트워크는 확률 변수들의 관계를 모델링하며, 이 관계들은 조건부 확률로 표현됨
  - 문제점: 변수의 수가 많아질수록 곱셈의 수가 기하급수적으로 증가
    - 실제로 큰 네트워크에서는 이 방법이 매우 비효율적
    - 이를 해결하기 위해 variable elimination, gibbs sampling, 사전 조건부 확률 분포 등의 방법을 사용
Variable Elimination: The Basic Ideas
- ‘Summation’을 최대한 안쪽으로 이동 → 계산을 간단하게
- 계산을 안쪽에서 바깥쪽으로 수행
- factors: use arrays of numbers with appropriate operations

Approximate inference

Approximate Inference
- Prior sampling
  - 네트워크의 사전 확률 분포에 따라 샘플을 생성
  - 특정 근거가 드물게 발생하는 경우 비효율적
- Rejection sampling
  - 사전 샘플링에서 생성된 샘플 중 증거와 일치하지 않는 샘플을 거부하는 방법
  - 증거가 매우 드물 때 많은 샘플이 거부되어 비효율적
- likelihood weighting
  - 샘플에 증거의 우도(likelihood)에 비례하는 가중치를 부여
  - 샘플링 효율을 향상
  - 드문 증거에 대해서는 여전히 비효율적
- Gibbs sampling
  - 조건부 확률에 기반하여 한 변수씩 순차적으로 샘플링
  - 복잡한 분포에서도 사용 가능
  - 샘플들이 수렴하기까지 시간이 필요