● 클라우드 / AWS 실전

EC2 GPU 인스턴스 비용, 실전에서 줄이는 법 (g6e 사례)

2026년 6월 26일

GPU 청구서는 대개 "큰 카드를 켜둔 채 잊어서" 커집니다. 비용을 줄이는 일은 화려한 최적화가 아니라, 맞는 인스턴스를 고르고 · 안 쓸 때 끄고 · 가동률을 올리는 세 가지의 반복입니다. 실제 프로젝트에서 통했던 순서대로 정리합니다.

1. 워크로드부터 분류한다

같은 "GPU"라도 요구가 다릅니다.

추론(서빙) — 낮은 지연, 꾸준한 트래픽. 메모리 대비 가성비가 핵심.
학습/파인튜닝 — 짧고 굵게. 중단 가능하면 스팟이 강력.
배치/실험 — 시간 제약 느슨. 스케줄링·큐로 가동률을 끌어올릴 여지가 가장 큼.

분류를 건너뛰면 모든 워크로드를 가장 비싼 인스턴스 기준으로 잡게 됩니다.

2. 인스턴스: 최신 세대가 대체로 더 싸다

추론 워크로드에서 구세대 g5(A10G) 대신 g6e(L40S) 로 옮기면, 카드당 처리량이 올라 같은 처리량을 더 적은 카드로 감당하는 경우가 많습니다. 핵심은 시간당 단가가 아니라 처리량당 단가입니다.

# 처리량당 단가로 비교 (예시)
단가/시간 ÷ (초당 처리 요청)  →  요청당 비용
g5.xlarge :  $1.006 / 120 rps  =  $0.0084 / 1k req
g6e.xlarge:  $1.861 / 280 rps  =  $0.0066 / 1k req   ← 더 저렴

숫자는 워크로드마다 다릅니다. 반드시 본인 모델로 벤치하세요. 단가표만 보고 고르면 틀립니다.

3. 안 쓸 때 끈다 — 가장 큰 절감

개발/실험 인스턴스는 야간·주말 자동 정지 스케줄을 건다.
오토스케일 하한을 0 또는 1로. 트래픽 없는 시간에 카드가 놀지 않게.
태그 기반으로 "주인 없는 GPU"를 매주 리포트.

대부분의 절감은 더 싼 카드가 아니라, 켜둔 시간을 줄이는 데서 나옵니다.

4. 스팟 + 체크포인트

중단 가능한 학습·배치는 스팟으로 최대 60~70%까지 내려갑니다. 관건은 중단 내성:

주기적 체크포인트로 재시작 비용을 0에 가깝게.
큐(예: Kueue)로 스팟 회수 시 자동 재큐잉.

5. 가동률을 측정 가능하게

"GPU가 비싸다"는 보통 "GPU가 논다"의 다른 말입니다. DCGM 지표로 실사용률을 대시보드에 띄우고, 카드당 처리량을 KPI로 잡으면 — 더 사지 않고도 더 돌립니다.

이 글의 작업은 클라우드 & 인프라 라인에서 다루는 비용 최적화·GPU 스케줄링의 일부입니다. 청구서가 매달 무섭다면, 무료 비용 진단부터 시작하세요.