당니의 개발자 스토리

인과추론을 위한 두가지 프레임워크 본문

LG Aimers/AI Essential Course

인과추론을 위한 두가지 프레임워크

clainy 2025. 7. 25. 01:07

조정 이라고 하는 인과추론을 하는 방법에 대해서 알아보자

 

단위 처리값 안정성 가정(SUTVA, Stable Unit Treatment Value Assumption) 

SUTVA가 가정하는 두가지

1. 간섭(Interference)이 없어야 된다.

: 한 유닛의 처치가 다른 유닛의 결과에 영향을 미치면 안 된다. 

2. 하나의 처치가 여러방식으로 구현 되어서는 안 된다.

 

예를 들어서 수술의 경우 어떤 의사가 하느냐에 따라서 다르게 수행 되면 안 된다.

 

 

🔷 수식 설명

1. 관측된 데이터 XiX_i

  • Xi=1X_i = 1: i번 사람이 치료 받음
  • Xi=0X_i = 0: i번 사람이 치료 안 받음

2. 관측된 결과 YiY_i는 무엇인가?

핵심 질문:
“나는 결과 Yi를 봤는데, 이게 과연 Yi(1)일까, Yi(0)일까?”

  • 만약 Xi=1X_i = 1이면
    → 실제 관측된 YiY_i는 바로 Yi(1)Y_i(1)
  • 만약 Xi=0X_i = 0이면
    → 실제 관측된 YiY_i는 바로 Yi(0)Y_i(0)

즉:

Xi=1Yi=Yi(1)

Xi=0Yi=Yi(0)


3. 수식을 하나로 합친 버전

Yi=XiYi(1)+(1Xi)Yi(0)

1 1Yi(1)+0Yi(0) Yi=Yi(1)
0 0Yi(1)+1Yi(0) Yi=Yi(0)

 

즉, 이 수식은 XiX_i에 따라서
관측된 결과 YiY_i가 잠재결과 중 하나로 자동으로 매핑되게 만드는 식입니다.


🔚 정리

  • YiY_i는 실제로는 Yi(1)Y_i(1)이나 Yi(0)Y_i(0) 중 하나인데,
    그게 언제 어떤 값이 되는지를 X_i로 결정한다는 걸 보장해주는 게 SUTVA입니다.
  • 이 연결이 가능해야 우리가 관측 데이터를 가지고
    인과효과를 추정할 수 있어요!

 

 

SUTVA가 항상 만족되는건 아님.

간섭에 대해서 알아보자.

 

ATE는 전체 모집단에 대해서 처치를 받았을 때와 처치를 받지 않았을 때의 결과의 차이를 평균내서 계산

 

이에 반해서 우리는 때때로 어떤 공변량의 조건을 준 상태에서의 인과 효과에 관심을 가질 수 있다. 예를 들어서 나이가 삼 십대인 경우에 인과 효과에 대해서 계산 하고 싶다면 조건부 평균 처리 효과(CATE)를 계산해야 한다.

Z라고 보이는 건 특정 공변량인데, 일반적으로 유닛이 사람이라고 하면 그 사람의 모든 특징에 조건을 걸어서 각각의 그 개인의 특징별로 어떤 효과를 우리가 기대할 수 있는지 계산 할 수 있다.

 

 

공변량(covariate)은 쉽게 말해서, 실험이나 관찰에서 사람마다 다를 수 있는 특성이다.

 

비교란성 식 : (Y(1),Y(0))TX

→ 즉, X를 알고 있으면
누가 치료(T)를 받았는지가 결과(Y)에 더 이상 영향을 주지 않는다는 의미입니다.

 

왜 이름이 "비교란성"일까?

공변량 X가 같으면,
치료를 받았든 안 받았든 비교 가능한(comparable) 사람들이 된다는 뜻이에요.

→ 그래서 unconfoundedness를 "비교란성"이라고 부르기도 합니다.

 

 

 

무작위화를 통해서 우리가 얻게되는 데이터에서는 상관성이 곧 인과성이 된다.