2026은 “AI를 내 책상 위에서 돌린다"가 진짜 현실이 된 해가 되었어요. 클라우드 API 비용 걱정 없이, 내 데이터를 밖에 보내지 않고, 로컬에서 70B~120B급 대형 모델을 돌릴 수 있는 하드웨어가 쏟아져 나왔거든요.
그런데 선택지가 많아지니까 오히려 고민이 깊어지더라고요. NVIDIA의 워크스테이션 GPU를 살지, 아예 DGX Spark 같은 올인원을 살지, Mac Studio가 가성비가 좋은 건지, AMD 쪽 미니PC도 괜찮은 건지…
그래서 이번에 로컬 LLM 추론에 초점을 맞춰 주요 4개 플랫폼을 벤치마크 데이터와 함께 비교해봤어요. 모든 수치에는 출처를 달았으니, 직접 확인해보셔도 좋습니다! 😊
🏆 비교 대상 한눈에 보기#
| 플랫폼 | 메모리 | 메모리 대역폭 | 가격대 (한국) | 핵심 포인트 |
|---|---|---|---|---|
| RTX PRO 6000 | 96GB GDDR7 | ~1,800 GB/s (추정) | 약 1,440~1,689만원 | 단일 GPU 최강 추론 성능 |
| DGX Spark (GB10) | 128GB LPDDR5X | 273 GB/s | 약 525만원~ (OEM, 다나와) | 올인원 AI 슈퍼컴퓨터 |
| Mac Studio M3 Ultra | 최대 512GB 통합메모리 | 800 GB/s | 659만원~ | 전력 효율 + 넉넉한 메모리 |
| AMD AI Max+ 미니PC | 최대 128GB 통합메모리 | 약 256 GB/s | 약 250만원~ (다나와) | 가성비 통합 메모리 |
🟢 NVIDIA RTX PRO 6000 Blackwell — 단일 GPU의 끝판왕#
스펙 요약#
RTX PRO 6000은 NVIDIA의 Blackwell 아키텍처 기반 전문가용 GPU예요.
- GPU: Blackwell 아키텍처
- VRAM: 96GB GDDR7 (ECC 지원)
- CUDA 코어: 24,064개
- Tensor 코어: 752개 (5세대)
- TDP: 600W (Max-Q 에디션은 300W)
- 정밀도: FP4/FP8/FP16/FP32 지원
출처: NVIDIA 공식 사이트
한국 가격#
다나와 기준으로 RTX PRO 6000 Workstation Edition은 약 1,440만원~1,689만원 수준이에요. Server Edition은 약 1,626만원대로 확인됩니다.
출처: 다나와 검색 결과
벤치마크 성능#
Hardware Corner의 llama.cpp 벤치마크(Ubuntu 24.04, CUDA 12.8)에서 측정된 결과를 보면:
| 모델 | 양자화 | 토큰 생성 (tg128) | 프롬프트 처리 (pp512) |
|---|---|---|---|
| Llama 7B | Q4_0 | 278.95 tok/s | 16,634 tok/s |
| Llama 13B | Q4_K | 163.31 tok/s | 9,876 tok/s |
| GPT-OSS 120B | Q8_0 | 193.30 tok/s | 2,419 tok/s |
출처: Hardware Corner - The Definitive GPU Ranking for LLMs (Ubuntu 24.04, CUDA 12.8, Q4_K_XL)
StorageReview의 LM Studio 테스트에서도 인상적인 수치가 나왔어요:
- GPT-OSS 120B: 163.1 tok/s
- Llama 3.3 70B: 31.8 tok/s
출처: StorageReview - RTX PRO 6000 Workstation GPU Review
서버 환경에서는 더 극적이에요. Akamai Cloud의 벤치마크에 따르면 RTX PRO 6000 Server Edition에서 Llama-3.3-Nemotron-Super-49B 모델이 FP8 기준 3,030 TPS, FP4 모드에서는 FP8 대비 1.32배 향상을 보였다고 합니다.
출처: Akamai Cloud - Benchmarking NVIDIA RTX PRO 6000
이런 분에게 추천#
- 70B~120B 모델을 빠르게 돌려야 하는 분
- 기존 워크스테이션에 GPU만 추가하고 싶은 분
- ECC 메모리가 필요한 프로덕션 환경
- 예산보다 성능이 우선인 분
96GB GDDR7이라는 VRAM 덕분에 단일 GPU로 120B 모델까지 올릴 수 있다는 게 가장 큰 장점이에요. 다만 600W TDP와 1,500만원 이상의 가격은 확실히 진입장벽이 높죠.
🟡 NVIDIA DGX Spark — 책상 위의 AI 슈퍼컴퓨터#
스펙 요약#
DGX Spark는 NVIDIA가 발표한 데스크탑 사이즈 AI 컴퓨터예요. Mac Studio 크기에 GB10 Grace Blackwell 슈퍼칩을 넣었습니다.
- 칩: GB10 Grace Blackwell Superchip
- 메모리: 128GB LPDDR5X (통합 메모리)
- 메모리 대역폭: 273 GB/s
- AI 연산: 1 PFLOP (FP4 기준)
- OS: NVIDIA DGX OS (Ubuntu 기반)
출처: NVIDIA 공식 사이트
가격#
NVIDIA 파운더스 에디션(4TB)의 미국 출시가는 $3,999, 2대 클러스터 구성은 $8,049입니다. 한국에서는 OEM 파트너 제품을 통해 구매할 수 있어요:
- ASUS Ascent GX10 (128GB/1TB): 약 525만원~ (다나와/11번가 기준)
- Dell Pro Max GB10 (128GB/2TB): 약 599만원~ (쿠팡 기준)
모두 동일한 NVIDIA GB10 Grace Blackwell 슈퍼칩 기반이고, 128GB LPDDR5X / 273 GB/s / 1 PFLOP(FP4) 스펙은 같아요. 스토리지 용량과 외형 디자인만 다릅니다. ASUS 1TB 모델이 현재 국내 최저가 기준으로 가장 저렴한 진입점이에요.
출처: NVIDIA 공식 발표, 다나와 - ASUS Ascent GX10, 쿠팡 - Dell Pro Max GB10
벤치마크 성능 — 반전이 있어요#
DGX Spark의 벤치마크를 보면 재밌는 특징이 나타나요. LMSYS 블로그에서 공개한 GPT-OSS 120B 모델 테스트 결과예요:
- 프롬프트 처리: 1,723 tok/s 👈 이건 정말 빠름
- 토큰 생성: 38.55 tok/s 👈 이건… 좀 느림
왜 이런 차이가 날까요? 메모리 대역폭 때문이에요.
LLM 추론에서 **프롬프트 처리(Prefill)**는 연산량이 중요하고, **토큰 생성(Decode)**은 메모리 대역폭이 중요합니다. DGX Spark의 LPDDR5X는 273 GB/s인데, 이게 토큰 생성 단계에서 병목이 되는 거예요.
출처: LMSYS - DGX Spark In-Depth Review, Signal65 - DGX Spark First Look, DatabaseMart - vLLM GPU Benchmark
비교하면:
- RTX PRO 6000 GDDR7: ~1,800 GB/s (추정)
- Mac Studio M3 Ultra: 800 GB/s
- DGX Spark LPDDR5X: 273 GB/s
1 PFLOP이라는 어마어마한 연산 능력이 있지만, 메모리 대역폭이 발목을 잡는 구조예요. 프롬프트 처리(배치 추론)에는 강하지만, 실시간 대화형 사용에서는 체감 속도가 떨어질 수 있습니다.
이런 분에게 추천#
- 128GB 메모리로 초대형 모델을 통째로 올리고 싶은 분
- 배치 처리 위주로 사용하는 분
- NVIDIA 생태계(CUDA, TensorRT 등)를 그대로 쓰고 싶은 분
- 올인원 솔루션을 선호하는 분
🔵 Mac Studio — 조용하고 효율적인 강자#
스펙 요약#
Apple의 Mac Studio는 로컬 LLM 커뮤니티에서 꾸준히 인기 있는 플랫폼이에요. 특히 M3 Ultra 이상의 통합 메모리 아키텍처가 큰 장점이죠.
M4 Max 모델
- 메모리: 최대 128GB 통합 메모리
- 메모리 대역폭: 546 GB/s
- 시작가: 3,290,000원 (한국)
M3 Ultra 모델
- 메모리: 최대 512GB 통합 메모리
- 메모리 대역폭: 800 GB/s
- 시작가: 6,590,000원 (한국)
벤치마크 성능#
Hardware Corner의 llama.cpp 벤치마크(M2 Ultra, 192GB 기준)에서:
- Llama 3 70B Q4_K_M: 토큰 생성 12.13 tok/s
출처: Hardware Corner - GPU Ranking for Local LLM
수치만 보면 RTX PRO 6000(31.8 tok/s)에 비해 느리지만, 몇 가지 중요한 맥락이 있어요:
- 최대 512GB 통합 메모리 — 600B+ 초거대 모델도 올릴 수 있음
- 800 GB/s 대역폭 — DGX Spark(273 GB/s)보다 약 3배 빠름
- 저전력 — 시스템 전체 소비전력이 300W 이하
- 무소음에 가까운 동작 — 팬 소음이 거의 없음
토큰 생성에서 메모리 대역폭이 핵심이라는 점을 생각하면, Mac Studio의 800 GB/s는 상당히 매력적인 수치예요.
한국 가격#
Apple Korea 기준:
- M4 Max (36GB): 3,290,000원~
- M3 Ultra (96GB): 6,590,000원~
출처: Apple Korea
이런 분에게 추천#
- 대형 모델을 양자화 없이 돌리고 싶은 분
- 저전력, 저소음이 중요한 분
- macOS 생태계를 이미 사용 중인 분
- 메모리 대역폭 대비 가성비를 중시하는 분
🟠 AMD AI Max+ 395 미니PC — 가성비의 다크호스#
스펙 요약#
AMD Ryzen AI Max+ 395는 원래 노트북용으로 출시됐지만, 이 칩을 탑재한 미니PC들이 속속 등장하면서 로컬 LLM용으로 주목받고 있어요.
- CPU: Zen 5, 16코어/32스레드
- GPU: RDNA 3.5, 40 CU
- 메모리: 최대 128GB 통합 메모리 (LPDDR5X)
- 메모리 대역폭: 약 256 GB/s
- NPU: XDNA 2 (50 TOPS)
출처: AMD 공식 스펙
미니PC 제품#
로컬 LLM 관점에서 가장 주목할 점은 128GB 통합 메모리를 미니PC 폼팩터로 쓸 수 있다는 거예요.
- Beelink GTR9 Pro (128GB): 약 264만원~ (다나와 기준)
- GMKtec EVO-X2 (128GB, 2TB): 약 250만원~
- Minisforum MS-S1 MAX (128GB, 2TB): 약 541만원~
이 외에도 ASUS, Framework 등에서 AI Max+ 탑재 제품을 출시했거나 출시 예정이에요. 가격은 구성(메모리/SSD)과 판매처에 따라 차이가 있으니 다나와에서 직접 비교해보시는 걸 추천합니다.
성능 포지셔닝#
솔직히 말하면, AI Max+ 395의 llama.cpp 벤치마크 데이터는 아직 충분하지 않아요. 다만 스펙 기반으로 포지셔닝을 해보면:
- 메모리 대역폭 256 GB/s — DGX Spark(273 GB/s)와 비슷한 수준
- 통합 메모리 128GB — 70B~120B 모델 탑재 가능
- 가격 약 250만원~ — DGX Spark OEM(약 525만원~)의 절반 수준
GPU 연산 성능 자체는 RTX PRO나 DGX Spark에 비할 바가 안 되지만, 128GB 통합 메모리를 저렴하게 확보할 수 있다는 게 핵심 가치예요. “느리더라도 큰 모델을 통째로 올리고 싶다"는 분들에게 매력적인 선택지입니다.
다만 ROCm 기반의 소프트웨어 생태계는 CUDA에 비해 아직 성숙도가 떨어지는 편이에요. 실제 사용 시에는 llama.cpp, Ollama 등 ROCm 호환성을 먼저 확인해보시는 게 좋겠습니다.
이런 분에게 추천#
- 대형 모델을 저예산으로 돌리고 싶은 분
- 미니PC 폼팩터를 선호하는 분
- 속도보다 모델 크기가 우선인 분
- Linux + ROCm 환경에 익숙한 분
📊 결론: 어떤 플랫폼을 고를까?#
메모리 대역폭이 핵심이다#
이번 비교를 통해 가장 명확해진 건 LLM 토큰 생성 속도 ≈ 메모리 대역폭이라는 관계예요.
LLM 추론은 크게 두 단계로 나뉩니다:
- 프롬프트 처리 (Prefill) — 연산량(FLOPS)에 비례 → GPU 코어 수가 중요
- 토큰 생성 (Decode) — 메모리 대역폭에 비례 → GB/s가 중요
DGX Spark가 1 PFLOP이라는 엄청난 연산력을 가지고 있으면서도 토큰 생성에서 Mac Studio에 밀리는 이유가 바로 이거예요. LPDDR5X 273 GB/s vs 통합 메모리 800 GB/s의 차이가 그대로 체감 속도에 반영됩니다.
용도별 추천#
“속도가 최우선이다” → RTX PRO 6000
- 96GB GDDR7 + 최고 수준의 메모리 대역폭
- 120B 모델도 단일 GPU에서 빠르게 추론
- 대신 1,500만원 이상 + 600W 전력
“대형 모델을 편하게 올리고 싶다” → Mac Studio M3 Ultra
- 최대 512GB 통합 메모리로 양자화 부담 없음
- 800 GB/s 대역폭으로 토큰 생성도 준수
- 659만원~으로 상대적 가성비 양호
“올인원 NVIDIA 생태계가 필요하다” → DGX Spark
- 128GB + CUDA/TensorRT 완전 지원
- 배치 추론에서 강력한 성능
- 약 525만원~(ASUS OEM 기준)으로 NVIDIA 올인원 입문
“예산이 한정적이지만 큰 모델을 돌리고 싶다” → AMD AI Max+ 미니PC
- 128GB 통합 메모리를 약 250만원~에 확보
- 속도는 양보하되 모델 크기에서 타협 없음
- 미니PC 폼팩터로 공간 효율적
최종 비교표#
| 기준 | RTX PRO 6000 | DGX Spark | Mac Studio M3 Ultra | AMD AI Max+ 미니PC |
|---|---|---|---|---|
| 추론 속도 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ |
| 메모리 용량 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 메모리 대역폭 | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
| 전력 효율 | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 가격 | ⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 소프트웨어 생태계 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
💡 마무리하며#
2026년은 “로컬 AI 하드웨어 춘추전국시대"라고 불러도 과언이 아니예요. 각 플랫폼마다 확실한 장단점이 있고, 정답은 본인의 용도와 예산에 달려 있습니다.
다만 하나 확실한 건, 메모리 대역폭을 꼭 확인하라는 거예요. VRAM이나 통합 메모리 용량만 보고 샀다가 토큰 생성 속도에서 실망할 수 있거든요. DGX Spark의 사례가 딱 그 교훈을 보여주고 있죠.
이 글의 벤치마크 수치와 가격 정보는 작성 시점 기준으로 수집한 거예요. 하드웨어 가격과 소프트웨어 최적화는 빠르게 변하니까, 구매 전에 최신 정보를 반드시 확인해보시길 바랍니다!
혹시 이 중에서 실제로 사용해보신 분이 계시면, 체감 성능이 어떤지 댓글로 공유해주시면 정말 감사하겠습니다. 함께 성장해요! 😊
📚 참고 자료#
- NVIDIA RTX PRO 6000 공식 페이지
- NVIDIA DGX Spark 공식 페이지
- Apple Mac Studio 스펙
- AMD Ryzen AI Max+ 시리즈
- Framework Desktop
- 다나와 - AI Max+ 395 미니PC 가격 비교
- Hardware Corner - GPU Ranking for Local LLM (Ubuntu 24.04, CUDA 12.8)
- StorageReview - RTX PRO 6000 Workstation GPU Review
- LMSYS Blog - DGX Spark In-Depth Review
- Signal65 - DGX Spark First Look
- Akamai Cloud - Benchmarking RTX PRO 6000
- DatabaseMart - vLLM GPU Benchmark
- 다나와 - GPU 가격 비교
- 다나와 - ASUS Ascent GX10
- Dell Pro Max GB10 제품 페이지
