LLM 서버리스 서빙 실무: KServe·Knative 기반 콜드 스타트 단축과 GPU 비용 최적화 전략
KServe와 Knative를 함께 사용하면 쿠버네티스 환경에서 LLM 추론 서비스를 요청량에 맞춰 자동 확장하고, 유휴 시간에는 파드를 0개까지 줄이는 서버리스 구조를 설계할 수 있습니다. 이전 리포트에서 다룬 TensorRT-LLM 가속 최적화 실무: 엔진 컴파일과 고처리량 프로덕션 서빙 구축 방법 이 단일 노드의 추론 처리량을 높이는 데 초점을 맞췄다면, 이번 글에서는 사용하지 않는 시간대의 GPU 점유 비용을 줄이고 콜드 스타트 지연을 관리하는 KServe·Knative 기반 LLM 서버리스 운영 전략을 정리합니다. 이 글에서 바로 확인할 수 있는 내용 LLM 추론 워크로드에서 서버리스 Scale-to-Zero가 실제로 비용 절감에 도움이 되는 조건을 정리합니다. KServe InferenceService와 Knative Pod Autoscaler(KPA)가 어떤 흐름으로 파드를 확장·축소하는지 설명합니다. vLLM 백엔드를 사용하는 KServe Hugging Face Runtime 기반 배포 매니페스트 예시를 확인합니다. LLM 서버리스 도입 시 가장 자주 문제가 되는 콜드 스타트, 타임아웃, 스케일링 진동 대응 방법을 다룹니다. Scale-to-Zero를 적용하면 안 되는 서비스 유형과 하이브리드 운영 기준을 함께 정리합니다. 운영 전 점검해야 할 스토리지, 이미지 캐시, 게이트웨이 타임아웃, 동시성 기준 체크리스트를 제공합니다. 1. 왜 LLM 서빙에 서버리스 아키텍처와 Scale-to-Zero가 필요할까? LLM 추론 인프라의 가장 큰 부담은 GPU가 비싸다는 점입니다. 특히 부서별 챗봇, 내부 문서 요약기, 특정 업무용 분석 모델처럼 하루 종일 요청이 꾸준히 들어오지 않는 서비스라면 문제가 더 커집니다. 실제 사용량은 낮은데 GPU 파드나 GPU 노드를 계속 켜두면 요청이 없는 시간에도 비용이 발생하기 ...