프롬프트 하나로 채점이 흔들린다, 채점 프롬프트 설계 원칙
같은 답안도 프롬프트에 따라 점수가 달라집니다. 안정적인 채점 프롬프트를 만드는 원칙입니다.
같은 학생 답안을 두 번 채점했는데 점수가 다르게 나온 경험이 있다면, 문제는 답안이 아니라 프롬프트의 모호함일 가능성이 큽니다. 처음엔 3점, 다시 돌리면 2점이 나온다면 기준이 흔들리는 것입니다. 채점 프롬프트는 평가의 헌법입니다. 막연하게 쓰면 결과도 막연해집니다. 모델을 더 비싼 것으로 바꾸기 전에, 프롬프트부터 정밀하게 다듬는 것이 순서입니다.
흔들리는 프롬프트와 안정적인 프롬프트
"이 답안을 채점해 줘"는 가장 좋지 않은 지시입니다. 무엇이 만점인지 모르는 채로 기계가 알아서 매기게 두는 셈입니다. 안정적인 프롬프트는 다음을 명시합니다.
- 만점 기준: 무엇이 들어가야 만점인지 요소로 열거합니다.
- 부분점수 규칙: 요소 1개당 몇 점인지 산술적으로 정합니다.
- 감점하지 않을 것: 맞춤법, 글씨, 표현 스타일 등 평가 대상이 아닌 것을 분명히 합니다.
- 출력 형식: 점수와 근거와 인용 위치를 정해진 틀로 받습니다.
특히 부분점수 규칙을 산술화하는 것이 일관성의 핵심입니다. "어느 정도 맞으면 부분점수" 같은 표현은 매번 다르게 해석됩니다. "핵심 개념 3개 중 2개 포함 시 2/3점"처럼 셀 수 있게 써야 합니다.
안정성 점검 절차
- 동일 답안 5개를 각각 3회 반복 채점해 봅니다.
- 같은 답안의 점수가 흔들리면 기준 문구를 더 구체화합니다. 흔들리는 항목이 곧 모호한 항목입니다.
- 경계 사례인 애매한 답안을 프롬프트에 예시로 박아 둡니다.
좋은 채점 프롬프트는 "이런 답은 이 점수"라는 예시 몇 개로 완성됩니다. 규칙보다 예시가 강합니다.
자주 빠지는 함정
- 너무 긴 프롬프트는 후반 지시가 무시됩니다. 핵심 규칙을 앞쪽에 둡니다. 중요한 것일수록 먼저 적습니다.
- "엄격하게", "관대하게" 같은 형용사는 기준이 못 됩니다. 사람마다 다르게 읽습니다. 수치로 바꿉니다.
- 모범답안을 주면 좋지만, 그것만 정답으로 굳지 않게 "동등하게 타당한 답도 인정" 문구를 넣습니다.
- 프롬프트를 고쳤으면 이전에 채점한 답안 일부를 다시 돌려 점수가 일관되게 유지되는지 확인합니다.
좋은 채점 프롬프트의 뼈대
처음부터 완벽한 프롬프트를 쓰려 하지 마시고, 다음 뼈대를 채워가는 방식으로 시작하면 빠릅니다. 한 번 틀을 만들면 문항만 바꿔 재사용할 수 있습니다.
- 역할과 맥락: 무슨 과목, 몇 학년, 무엇을 평가하는 문항인지 먼저 적습니다.
- 만점 조건: 어떤 요소가 모두 들어가야 만점인지 목록으로 나열합니다.
- 부분점수 표: 요소 몇 개 충족 시 몇 점인지 산술적으로 정리합니다.
- 제외 조건: 감점하지 않을 것을 분명히 적습니다.
- 경계 예시: 헷갈리는 답안 두세 개와 그 정답 점수를 박아 둡니다.
- 출력 틀: 점수, 근거, 인용 위치 순으로 받게 형식을 지정합니다.
이 여섯 칸을 채우면 막연한 한 줄 지시와는 비교가 안 되게 점수가 안정됩니다. 특히 5번 예시가 결과를 좌우하니, 채점하다 만난 애매한 답안을 계속 예시로 추가해 프롬프트를 키워 가시기 바랍니다.
핵심 정리
채점의 일관성은 모델 성능이 아니라 프롬프트의 정밀함에서 나옵니다. 만점 기준을 요소로 쪼개고, 부분점수를 산술화하고, 경계 예시를 박아 두면 점수가 흔들리지 않습니다. 한 번 안정시킨 프롬프트는 다음 학기에도 그대로 재사용되니, 초기에 들인 다듬기 시간이 가장 오래 남는 자산이 됩니다.

첫 번째 댓글을 남겨보세요.