AI 평가
서술형 시험 AI 채점, 교사가 직접 신뢰도를 검증하는 5단계
서술형 답안을 AI에 맡기기 전, 채점 신뢰도를 교사가 스스로 검증하는 현장형 절차를 정리했습니다.
중간고사 서술형 30문항을 두 학급 분량으로 채점하다 보면, 마지막 답안에 이르러 기준이 처음과 미묘하게 달라집니다. 오전에 채점한 답안과 오후에 채점한 답안의 잣대가 다르고, 까다로운 답안 뒤에 온 평범한 답안이 더 후하게 보이기도 합니다. AI 채점은 이 채점자 내 일관성(intra-rater reliability) 문제를 줄여 주지만, 그대로 믿고 점수를 입력하면 학부모 민원 한 통에 무너집니다. 도입보다 검증이 먼저입니다. 검증 없이 도입한 첫해에 가장 많이 듣는 말이 "왜 우리 아이만 깐깐하게 봤느냐"는 항의라는 점을 기억하시기 바랍니다.
채점 위임 전 반드시 거칠 5단계
AI에게 답안을 통째로 넘기기 전에 다음 순서를 지키면 사고를 크게 줄일 수 있습니다. 한 단계도 건너뛰지 말고 첫 단원평가에서 한 번만 제대로 밟아 두면, 이후 학기 내내 같은 절차를 재사용할 수 있습니다.
- 앵커 답안 선정: 만점, 부분점수, 0점에 해당하는 실제 학생 답안을 3~5개 골라 정답 기준을 문장으로 명문화합니다. "이 정도면 만점"이라는 머릿속 감각을 글로 끄집어내는 과정입니다.
- 블라인드 교차 채점: 동일 답안 20개를 교사와 AI가 따로 채점한 뒤 점수 차를 비교합니다. 서로의 점수를 보지 않은 상태로 매기는 것이 핵심입니다.
- 불일치 구간 분석: 2점 이상 벌어진 답안만 모아 원인을 살펴봅니다. 대개 부분점수 경계나 오타 처리, 동의어 인정 여부에서 갈립니다.
- 프롬프트 보정: "맞춤법 오류는 감점하지 않음", "핵심 개념 2개 이상 포함 시 부분점수 인정" 같은 규칙을 명시적으로 추가합니다.
- 재검증 후 적용: 다시 20개를 돌려 일치율이 90%를 넘으면 전체에 적용합니다. 90%에 못 미치면 4단계로 돌아갑니다.
핵심은 AI를 1차 채점자가 아니라 "두 번째 채점자"로 두는 것입니다. 최종 책임은 사람에게 남습니다.
현장에서 자주 놓치는 부분
- 같은 의미를 다른 단어로 쓴 답안(동의어 처리)은 AI가 자주 틀립니다. 예를 들어 "광합성"을 "양분 만드는 과정"으로 풀어 쓴 경우, 기준 문구에 인정 범위를 적어두지 않으면 0점으로 처리됩니다.
- 그림이나 도표가 포함된 답안은 텍스트 변환 단계에서 정보가 손실됩니다. 이 유형은 사람이 직접 채점하시는 편이 안전합니다.
- 점수 분포가 한쪽으로 쏠리면 루브릭이 너무 관대하거나 엄격하다는 신호입니다. 평균이 95점이거나 40점이면 기준 문구를 다시 손보아야 합니다.
- 검증을 한 번 했다고 영원히 신뢰해서는 안 됩니다. 문항 유형이 바뀌면 신뢰도도 처음부터 다시 쌓아야 합니다.
핵심 정리
AI 서술형 채점의 가치는 "빠름"이 아니라 재현 가능한 일관성에 있습니다. 앵커 답안, 교차 채점, 불일치 분석이라는 세 축만 챙기면 채점 시간은 줄이고 신뢰도는 오히려 올릴 수 있습니다. 처음부터 전 학년에 적용하지 마시고, 첫 단원평가 한 반에서 작게 시작해 데이터를 쌓아 보시기 바랍니다. 검증 절차를 한 번 문서로 만들어 두면 다음 학기에는 점검이 30분이면 끝납니다.
로그인하고 참여하세요

첫 번째 댓글을 남겨보세요.