a journal entry · field log
첫 스파크 — gemma2-27b를 박스 위에 올리다
DGX SPARK가 도착한 날, 일단 gemma2-27b를 4bit로 올려봤다. 토큰당 18ms. 손맛이 있다.
박스가 도착한 날.
운반 트럭에서 DGX SPARK를 끌어내리는 동안에도 머릿속으론 어떤 모델을 가장 먼저 올릴지 고민했다. 결국 너무 거창한 베이스라인보다는 익숙한 친구 — gemma2-27b — 를 4bit 양자화로 올려놓고 토크나이저부터 살피는 쪽으로 갔다.
huggingface-cli로 weights를 받고, transformers + bitsandbytes로 첫 forward를 돌렸다. 초기화에 약 22초. 이후 토큰당 18ms 정도. 책상 위 미니 GPU에서는 상상도 못 했던 수치다. 콜드 스타트 후 한 100토큰쯤 흘려 보내고 나서야 — 아, 이걸 직접 만지는 게 어떤 감각인지를 다시 알았다.
오늘은 모델 점검이 목적이었으니 RAG는 내일 붙인다. 일단은 빈 prompt로 "수능 31번 빈칸 추론 문제를 한국 학생에게 어떻게 설명할까?" 만 시켜봤다. 의외로 나쁘지 않은 한국어가 흘러나왔다.
기록을 남길 가치가 있는 순간이라는 직감.