공공정책 위키(Public Policy Wiki)에 오신 것을 환영합니다
허위변수
허위변수 정의
허위변수(Spurious variable)란 두 변수간에 실제로 존재하는 관계가 없는데도 두 변수간에 어떤 관계가 있는 것처럼 보이게 만드는, 두 변수들에 모두 영향을 미치는 뒤에 숨어있는 제3의 변수를 의미한다. 즉, 두 변수 A과 B가 상관관계를 가진다고 보이지만 사실은 제3의 변수 C에 의해 A과 B는 영향을 받고 있다는 것이다.
허위변수 이해의 필요성
허위변수는 데이터 분석 과정에서 아주 흔히 발생하는 문제이기 때문에 상관관계를 인과관계로 이해하지 않도록 살펴봐야 한다.특히, 정책의 효과를 평가할 때 허위변수가 있을 경우 정책이 과도하게 또는 과소하게 평가될 가능성이 매우 높다. 정책을 평가하는 때 있어 허위변수를 제대로 인식하는 것이 정책효과에 대한 신뢰성과 정확성을 높여준다.
허위변수의 사례
- 아이스크림 판매량과 익사 사고가 양의 상관관계를 가지는 경우, 실제 원인은 여름의 기온이란 허위변수 때문에 아이스크림 판매량과 익사 사고 모두가 증가한 것이다.
- 도시의 가로등 수와 범죄율이 양의 상관관계를 가지는 경우, 실제로는 인구 밀도란 제3의 변수가 두 변수에게 영향을 미친 것이다.
- 교육 정책과 학생의 성적 향상이 양의 상관관계를 가지는 경우, 실제로는 허위변수인 학생의 가정 환경이 두 변수에 영향을 미친 것이다.
- 도시의 교통 정책과 교통 사고가 음의 상관관계를 가지는 경우, 실제 원인은 차량 감소가 두 변수에 영향을 미친 것이다.
허위변수의 문제점
- 허위변수는 두 변수간에 상관관계를 인과관계로 착각하게 만들고, 이에 따라 잘못된 결론에 이를 수 있다.
- 데이터 분석을 기반으로 한 정책 결정에 오류가 생긴다.
- 연구 결과의 신뢰성과 타당성이 떨어져 결과를 활용하기 어려울 것이다.
- 잠재적 변수 누락으로 인한 문제 발생한다.
허위변수를 다루는 방법
허위변수를 다룰 수 있는 밥법들이 많지만 통계학 및 정책평가에서 많이 쓰이는 대표적인 3가지를 설명하고자 한다.
- Randomized Controlled Trials(RCTs)는 정책 실험집단과 통제집단을 무작위로 할당하면 허위변수의 영향을 최소화할 방법이다.RCTs는 허위변수를 사전에 제거하여 가장 믿을 수 있는 결과를 제공하지만 실험 설계가 어렵고, 외부 환경에서 적용하기 어려운 경우도 있다.
- Difference-in-Differences(DID)는 정책 시행 전후의 결과 변화를 평가하며, 통제집단과 실험집단을 비교하여 허위변수의 영향을 통제한다. 무작위 대조 실험이 불가능한 데이터에서 효과적으로 사용 가능하다. 한편으로, 통제집단 선택이 적절하지 않을 경우 편향 가능성이 있다.
- Propensity Score Matching(PSM)는 실험집단과 통제집단의 허위변수를 기준으로 유사한 사례를 매칭하여 정책 효과를 추정하는 방법이다. 장점은 관찰 데이터를 사용하므로 윤리적, 실행적 제약이 없다. 단점은 매칭 과정에서 데이터 손실이 발생할 수 있다.
결론
정책의 효과를 정확히 평가하고자 한다면 허위변수를 통제 및 제거해야 한다. 제3의 변수의 영향을 제대로 다루지 않으면 정책평가 결과가 정확성을 잃으며 잘못된 결론에 이를 것이다. 다양한 통계적 방법론과 연구 설계의 도움으로 허위변수를 다룰 수 있으며, 그 때 정책효과가 정확해진다.