englishcodes·mmxxvi

a journal entry · field log

DeepSeek-R1을 7B로 distill 시도 — 첫 결과

GPT-5 의존을 끊고 IMSA 분석을 로컬에서 돌리려는 첫 시도. 1,115개 샘플로 작은 모델을 가르쳤다.

외부 API 없이 IMSA 구조 분석을 돌리는 게 목표다.

DeepSeek-R1으로 만든 1,115개 IMSA 라벨 데이터를 기반으로, Qwen2.5-7B를 LoRA로 파인튜닝했다. RTX 5070 Ti 한 장 위에서 epoch 3, lr 2e-4. 학습 자체는 2시간 만에 끝났다.

검증 셋에서의 정확도는 89.3%. 우리 채점 기준으로는 살짝 부족하지만, 외부 호출이 사라졌다는 사실 자체가 가장 큰 변화다. 지문 1개 분석에 GPT-5 호출이 평균 0.04달러 나가던 게 그냥 0이 됐다.

체감되는 약점은 Addition 라벨. 부가 정보 문장을 자주 Support로 잘못 본다. 실수의 패턴을 오답 100개에서 직접 읽었다 — 부가 정보가 길고 구체적일수록 모델이 본문 주장으로 착각한다. 다음 라운드 학습 데이터에는 long-Addition 케이스를 의도적으로 더 넣을 계획.

오늘의 메모: distillation이 "큰 선생을 작은 모델로 모방시키는 일"이 아니라 "선생이 무엇을 보고 그렇게 판단했는지" 를 라벨에 새기는 작업이라는 걸 다시 확인.