데이터 품질이 분석을 망치는 흔한 5가지 오염
분석 결과가 이상할 때 알고리즘보다 먼저 의심해야 할 학습 데이터의 품질 문제 다섯 가지를 짚습니다.
대시보드의 숫자가 직관과 어긋날 때, 대부분의 교사는 자신의 판단을 먼저 의심합니다. 하지만 현장에서 진짜 원인은 분석 방법이 아니라 입력된 데이터 자체가 오염되어 있는 경우가 훨씬 많습니다. "쓰레기를 넣으면 쓰레기가 나온다"는 말은 학습 데이터에서도 그대로 적용됩니다. 아무리 정교한 분석도 오염된 데이터 위에서는 그럴듯한 거짓말을 만들어낼 뿐입니다. 분석을 신뢰하려면 데이터의 품질부터 점검해야 합니다.
자주 발생하는 다섯 가지 오염
다음 다섯 가지는 거의 모든 학교 데이터에서 한 번쯤은 발견됩니다.
- 중복 기록: 한 학생이 같은 활동을 두 번 제출하거나, 시스템이 같은 로그를 중복 저장한 경우입니다. 참여율이 슬그머니 부풀려집니다. 합계가 인원수보다 많으면 거의 중복입니다.
- 유령 계정: 전출한 학생이나 테스트용 계정이 명단에 남아 분모를 키워 모든 비율을 실제보다 낮게 보이게 만듭니다. 완료율 70%가 사실은 유령 5명을 뺀 85%일 수 있습니다.
- 시각 오류: 서버 시간대 설정이 잘못되면 자정 직전 제출이 다음 날로 기록되어 지각률이 통째로 왜곡됩니다. 한국 학교인데 서버가 다른 시간대면 9시간이 어긋납니다.
- 빈칸과 0의 혼동: 미응시를 0점으로 처리하면 평균이 무너집니다. 시험을 안 본 것과 0점을 받은 것은 전혀 다른 의미인데 같은 숫자로 합쳐집니다.
- 단위 불일치: 한 시스템은 학습 시간을 분으로, 다른 시스템은 초로 기록하면 결합할 때 60배 오차가 납니다.
분석 결과가 놀랍다면, 통찰을 발견한 것이 아니라 오류를 발견했을 가능성을 먼저 따져 보아야 합니다.
분석 전 5분 점검 절차
본격적인 분석에 들어가기 전, 다음 네 가지를 빠르게 확인하는 습관만으로 대부분의 오염을 걸러낼 수 있습니다.
- 극단값 훑어보기: 하루 999분 학습, 한 학생이 과제 50회 제출 같은 비현실적 값은 거의 항상 오류입니다. 정렬해서 위아래 끝을 먼저 보시기 바랍니다.
- 합계 검산: 학급 인원수와 데이터 행 수가 맞는지 확인합니다. 어긋나면 중복이거나 누락입니다.
- 빈칸 비율 확인: 특정 열의 빈칸이 30%를 넘으면 그 지표만으로는 결론을 내리지 않습니다. 근거가 부실한 결론은 내리지 않느니만 못합니다.
- 표본 직접 대조: 학생 세 명을 골라 데이터와 실제 기록을 눈으로 맞춰 봅니다. 자동화된 숫자도 사람이 한 번 검증해야 신뢰가 생깁니다.
데이터 품질은 한 번 점검하고 끝낼 일이 아닙니다. 학기가 바뀌고 도구가 업데이트될 때마다 같은 오염이 새로 들어옵니다. 그래서 품질 점검은 분석 직전에 늘 반복하는 짧은 의식으로 두는 편이 낫습니다. 점검에 익숙해지면 30명 학급 데이터는 3분이면 훑습니다. 처음 한두 번이 번거로울 뿐, 잘못된 숫자로 학부모 앞에서 잘못된 설명을 하게 되는 위험에 비하면 그 3분은 더없이 싼 보험입니다.
핵심 정리
좋은 분석은 좋은 데이터에서만 나옵니다. 중복, 유령 계정, 시각 오류, 빈칸 처리, 단위 불일치 다섯 가지는 통찰처럼 보이는 착시를 만들어내는 가장 흔한 범인입니다. 분석 결과가 직관과 어긋날 때 자신의 판단을 의심하기 전에 데이터를 먼저 의심하시기 바랍니다. 5분의 품질 점검이 한 학기의 잘못된 의사결정을 막습니다.

첫 번째 댓글을 남겨보세요.