상관관계의 함정, 학습 데이터에서 인과를 착각할 때
데이터에서 함께 움직인다고 원인은 아닙니다. 학습 분석에서 흔히 빠지는 인과 착각과 검증법을 다룹니다.
"동영상을 많이 본 학생이 성적이 높다. 그러니 모두에게 영상 시청을 늘리게 하자." 그럴듯하지만 위험한 추론입니다. 영상을 많이 본 것이 성적을 올린 것이 아니라, 원래 성실한 학생이 영상도 많이 보고 성적도 높았을 가능성이 크기 때문입니다. 두 숫자가 함께 움직인다고 해서 하나가 다른 하나의 원인은 아닙니다. 학습 데이터 해석에서 가장 비싼 실수가 바로 이 상관과 인과의 혼동입니다.
인과를 착각하게 만드는 패턴
다음 세 가지 함정을 특히 조심해야 합니다. 셋 다 멀쩡한 데이터에서 엉뚱한 결론을 끌어냅니다.
- 숨은 제3 변수: 학습 동기나 가정 환경처럼 두 지표를 동시에 움직이는 보이지 않는 원인이 있습니다. 동기가 높은 학생이 영상도 많이 보고 성적도 올린다면, 영상은 원인이 아니라 동기의 또 다른 결과일 뿐입니다.
- 역방향 인과: 화살표가 우리 생각과 반대일 수 있습니다. 성적이 올라 자신감이 생긴 학생이 영상을 더 본 것일 수도 있습니다. 원인과 결과가 뒤바뀐 것입니다.
- 표본 편향: 영상을 끝까지 본 학생만 분석에 남기면, 애초에 의지가 강한 집단끼리만 비교하게 됩니다. 그 차이는 영상이 아니라 의지의 차이입니다.
데이터가 정직하게 보여 주는 것은 "함께 움직였다"까지입니다. "그래서 하나가 원인이다"는 데이터가 아니라 우리가 덧붙인 이야기입니다.
인과를 조심스럽게 따지는 방법
완벽한 증명은 어렵지만, 다음 절차로 결론의 신뢰도를 단계적으로 높일 수 있습니다.
- 작은 비교 실험: 한 학급에만 영상을 추가하고, 조건이 비슷한 다른 학급과 결과를 비교합니다. 조건을 통제한 비교만이 인과에 가장 가깝게 다가갑니다.
- 제3 변수 후보를 미리 적어 두고 그것까지 데이터로 확인합니다. 동기가 의심되면 동기도 측정합니다.
- 시간 순서를 확인합니다. 원인은 반드시 결과보다 먼저 일어나야 합니다. 순서가 뒤집히면 인과도 뒤집힙니다.
- 한 번의 결과를 다른 학기, 다른 학급에서 다시 재현해 봅니다. 한 번의 우연은 여러 번 반복되지 않습니다.
현실의 학교에서 완벽한 통제 실험은 어렵습니다. 그래도 좌절할 필요는 없습니다. 핵심은 인과를 증명하는 것이 아니라, 인과를 단정하기 전에 한 박자 멈추는 습관입니다. "영상을 더 보게 하자"라고 결정하기 전에 "혹시 다른 이유는 없을까"를 한 번 묻는 것만으로도 절반의 오류는 걸러집니다. 데이터가 풍부해질수록 우리는 더 신중하게 결론을 내려야 합니다. 숫자가 많아진다고 인과가 저절로 분명해지는 것은 결코 아니기 때문입니다.
핵심 정리
학습 데이터에서 가장 흔하고 비싼 오류는 상관을 인과로 성급하게 번역하는 것입니다. 숨은 변수, 역방향 인과, 표본 편향을 의심하고, 가능하면 통제된 비교로 검증하시기 바랍니다. "함께 움직였다"와 "그래서 원인이다" 사이에는 신중한 검증이라는 긴 다리가 놓여 있습니다. 그 다리를 건너뛰면, 멀쩡한 데이터로도 학생을 엉뚱한 방향으로 이끌게 됩니다.

첫 번째 댓글을 남겨보세요.