englishcodes·mmxxvi

a journal entry · field log

RAG 코퍼스를 7만 지문으로 넓히다

임베딩 모델을 bge-m3로 갈아끼우고 7만 기출 지문 전체를 다시 인덱싱했다. 한 주 내내 쿼리 패턴을 다듬었다.

일주일 내내 임베딩만 다시 만들었다.

이전에는 text-embedding-3-small로 5천 지문만 인덱싱한 데모 수준이었는데, 이번엔 bge-m3로 우리가 가진 7만 기출 지문을 통째로 갈아넣었다. 모델 크기 차이가 생각보다 컸고, GPU 한 장에서 batch 32로 돌리는 데 약 4시간이 걸렸다. 한 번 돌리고 나면 이제 검색 자체는 1초 안에 끝난다.

RAG 품질은 임베딩보다 쿼리 디자인이 결국 다 한다는 걸 다시 절감한다. 사용자가 "환경 지문 중에서 수동태가 많은 거" 라고 묻는 순간, 이걸 한 단계로 푸는 건 무리고 — [환경] 시맨틱 검색 → 결과에서 수동태 플래그 필터링 두 단계로 분리해야 한다. 이런 라우팅을 LLM 자체가 알아서 해주길 바라긴 했지만 아직은 직접 짜는 쪽이 안전했다.

내일은 GrammarOracle V2의 응답 시간을 재본다. 지금 평균 4.2초 — 절반으로 떨어뜨리고 싶다.