본문으로 건너뛰기

로컬 LLM 돌리기 위한 하드웨어 비교 - RTX PRO 6000부터 DGX Spark, Mac Studio, AMD 미니PC까지

목차

2026은 “AI를 내 책상 위에서 돌린다"가 진짜 현실이 된 해가 되었어요. 클라우드 API 비용 걱정 없이, 내 데이터를 밖에 보내지 않고, 로컬에서 70B~120B급 대형 모델을 돌릴 수 있는 하드웨어가 쏟아져 나왔거든요.

그런데 선택지가 많아지니까 오히려 고민이 깊어지더라고요. NVIDIA의 워크스테이션 GPU를 살지, 아예 DGX Spark 같은 올인원을 살지, Mac Studio가 가성비가 좋은 건지, AMD 쪽 미니PC도 괜찮은 건지…

그래서 이번에 로컬 LLM 추론에 초점을 맞춰 주요 4개 플랫폼을 벤치마크 데이터와 함께 비교해봤어요. 모든 수치에는 출처를 달았으니, 직접 확인해보셔도 좋습니다! 😊

🏆 비교 대상 한눈에 보기
#

플랫폼메모리메모리 대역폭가격대 (한국)핵심 포인트
RTX PRO 600096GB GDDR7~1,800 GB/s (추정)약 1,440~1,689만원단일 GPU 최강 추론 성능
DGX Spark (GB10)128GB LPDDR5X273 GB/s약 525만원~ (OEM, 다나와)올인원 AI 슈퍼컴퓨터
Mac Studio M3 Ultra최대 512GB 통합메모리800 GB/s659만원~전력 효율 + 넉넉한 메모리
AMD AI Max+ 미니PC최대 128GB 통합메모리약 256 GB/s약 250만원~ (다나와)가성비 통합 메모리

🟢 NVIDIA RTX PRO 6000 Blackwell — 단일 GPU의 끝판왕
#

스펙 요약
#

RTX PRO 6000은 NVIDIA의 Blackwell 아키텍처 기반 전문가용 GPU예요.

  • GPU: Blackwell 아키텍처
  • VRAM: 96GB GDDR7 (ECC 지원)
  • CUDA 코어: 24,064개
  • Tensor 코어: 752개 (5세대)
  • TDP: 600W (Max-Q 에디션은 300W)
  • 정밀도: FP4/FP8/FP16/FP32 지원

출처: NVIDIA 공식 사이트

한국 가격
#

다나와 기준으로 RTX PRO 6000 Workstation Edition은 약 1,440만원~1,689만원 수준이에요. Server Edition은 약 1,626만원대로 확인됩니다.

출처: 다나와 검색 결과

벤치마크 성능
#

Hardware Corner의 llama.cpp 벤치마크(Ubuntu 24.04, CUDA 12.8)에서 측정된 결과를 보면:

모델양자화토큰 생성 (tg128)프롬프트 처리 (pp512)
Llama 7BQ4_0278.95 tok/s16,634 tok/s
Llama 13BQ4_K163.31 tok/s9,876 tok/s
GPT-OSS 120BQ8_0193.30 tok/s2,419 tok/s

출처: Hardware Corner - The Definitive GPU Ranking for LLMs (Ubuntu 24.04, CUDA 12.8, Q4_K_XL)

StorageReview의 LM Studio 테스트에서도 인상적인 수치가 나왔어요:

  • GPT-OSS 120B: 163.1 tok/s
  • Llama 3.3 70B: 31.8 tok/s

출처: StorageReview - RTX PRO 6000 Workstation GPU Review

서버 환경에서는 더 극적이에요. Akamai Cloud의 벤치마크에 따르면 RTX PRO 6000 Server Edition에서 Llama-3.3-Nemotron-Super-49B 모델이 FP8 기준 3,030 TPS, FP4 모드에서는 FP8 대비 1.32배 향상을 보였다고 합니다.

출처: Akamai Cloud - Benchmarking NVIDIA RTX PRO 6000

이런 분에게 추천
#

  • 70B~120B 모델을 빠르게 돌려야 하는 분
  • 기존 워크스테이션에 GPU만 추가하고 싶은 분
  • ECC 메모리가 필요한 프로덕션 환경
  • 예산보다 성능이 우선인 분

96GB GDDR7이라는 VRAM 덕분에 단일 GPU로 120B 모델까지 올릴 수 있다는 게 가장 큰 장점이에요. 다만 600W TDP와 1,500만원 이상의 가격은 확실히 진입장벽이 높죠.

🟡 NVIDIA DGX Spark — 책상 위의 AI 슈퍼컴퓨터
#

스펙 요약
#

DGX Spark는 NVIDIA가 발표한 데스크탑 사이즈 AI 컴퓨터예요. Mac Studio 크기에 GB10 Grace Blackwell 슈퍼칩을 넣었습니다.

  • : GB10 Grace Blackwell Superchip
  • 메모리: 128GB LPDDR5X (통합 메모리)
  • 메모리 대역폭: 273 GB/s
  • AI 연산: 1 PFLOP (FP4 기준)
  • OS: NVIDIA DGX OS (Ubuntu 기반)

출처: NVIDIA 공식 사이트

가격
#

NVIDIA 파운더스 에디션(4TB)의 미국 출시가는 $3,999, 2대 클러스터 구성은 $8,049입니다. 한국에서는 OEM 파트너 제품을 통해 구매할 수 있어요:

  • ASUS Ascent GX10 (128GB/1TB): 약 525만원~ (다나와/11번가 기준)
  • Dell Pro Max GB10 (128GB/2TB): 약 599만원~ (쿠팡 기준)

모두 동일한 NVIDIA GB10 Grace Blackwell 슈퍼칩 기반이고, 128GB LPDDR5X / 273 GB/s / 1 PFLOP(FP4) 스펙은 같아요. 스토리지 용량과 외형 디자인만 다릅니다. ASUS 1TB 모델이 현재 국내 최저가 기준으로 가장 저렴한 진입점이에요.

출처: NVIDIA 공식 발표, 다나와 - ASUS Ascent GX10, 쿠팡 - Dell Pro Max GB10

벤치마크 성능 — 반전이 있어요
#

DGX Spark의 벤치마크를 보면 재밌는 특징이 나타나요. LMSYS 블로그에서 공개한 GPT-OSS 120B 모델 테스트 결과예요:

  • 프롬프트 처리: 1,723 tok/s 👈 이건 정말 빠름
  • 토큰 생성: 38.55 tok/s 👈 이건… 좀 느림

왜 이런 차이가 날까요? 메모리 대역폭 때문이에요.

LLM 추론에서 **프롬프트 처리(Prefill)**는 연산량이 중요하고, **토큰 생성(Decode)**은 메모리 대역폭이 중요합니다. DGX Spark의 LPDDR5X는 273 GB/s인데, 이게 토큰 생성 단계에서 병목이 되는 거예요.

출처: LMSYS - DGX Spark In-Depth Review, Signal65 - DGX Spark First Look, DatabaseMart - vLLM GPU Benchmark

비교하면:

  • RTX PRO 6000 GDDR7: ~1,800 GB/s (추정)
  • Mac Studio M3 Ultra: 800 GB/s
  • DGX Spark LPDDR5X: 273 GB/s

1 PFLOP이라는 어마어마한 연산 능력이 있지만, 메모리 대역폭이 발목을 잡는 구조예요. 프롬프트 처리(배치 추론)에는 강하지만, 실시간 대화형 사용에서는 체감 속도가 떨어질 수 있습니다.

이런 분에게 추천
#

  • 128GB 메모리로 초대형 모델을 통째로 올리고 싶은 분
  • 배치 처리 위주로 사용하는 분
  • NVIDIA 생태계(CUDA, TensorRT 등)를 그대로 쓰고 싶은 분
  • 올인원 솔루션을 선호하는 분

🔵 Mac Studio — 조용하고 효율적인 강자
#

스펙 요약
#

Apple의 Mac Studio는 로컬 LLM 커뮤니티에서 꾸준히 인기 있는 플랫폼이에요. 특히 M3 Ultra 이상의 통합 메모리 아키텍처가 큰 장점이죠.

M4 Max 모델

  • 메모리: 최대 128GB 통합 메모리
  • 메모리 대역폭: 546 GB/s
  • 시작가: 3,290,000원 (한국)

M3 Ultra 모델

  • 메모리: 최대 512GB 통합 메모리
  • 메모리 대역폭: 800 GB/s
  • 시작가: 6,590,000원 (한국)

출처: Apple Korea 공식 스펙

벤치마크 성능
#

Hardware Corner의 llama.cpp 벤치마크(M2 Ultra, 192GB 기준)에서:

  • Llama 3 70B Q4_K_M: 토큰 생성 12.13 tok/s

출처: Hardware Corner - GPU Ranking for Local LLM

수치만 보면 RTX PRO 6000(31.8 tok/s)에 비해 느리지만, 몇 가지 중요한 맥락이 있어요:

  1. 최대 512GB 통합 메모리 — 600B+ 초거대 모델도 올릴 수 있음
  2. 800 GB/s 대역폭 — DGX Spark(273 GB/s)보다 약 3배 빠름
  3. 저전력 — 시스템 전체 소비전력이 300W 이하
  4. 무소음에 가까운 동작 — 팬 소음이 거의 없음

토큰 생성에서 메모리 대역폭이 핵심이라는 점을 생각하면, Mac Studio의 800 GB/s는 상당히 매력적인 수치예요.

한국 가격
#

Apple Korea 기준:

  • M4 Max (36GB): 3,290,000원~
  • M3 Ultra (96GB): 6,590,000원~

출처: Apple Korea

이런 분에게 추천
#

  • 대형 모델을 양자화 없이 돌리고 싶은 분
  • 저전력, 저소음이 중요한 분
  • macOS 생태계를 이미 사용 중인 분
  • 메모리 대역폭 대비 가성비를 중시하는 분

🟠 AMD AI Max+ 395 미니PC — 가성비의 다크호스
#

스펙 요약
#

AMD Ryzen AI Max+ 395는 원래 노트북용으로 출시됐지만, 이 칩을 탑재한 미니PC들이 속속 등장하면서 로컬 LLM용으로 주목받고 있어요.

  • CPU: Zen 5, 16코어/32스레드
  • GPU: RDNA 3.5, 40 CU
  • 메모리: 최대 128GB 통합 메모리 (LPDDR5X)
  • 메모리 대역폭: 약 256 GB/s
  • NPU: XDNA 2 (50 TOPS)

출처: AMD 공식 스펙

미니PC 제품
#

로컬 LLM 관점에서 가장 주목할 점은 128GB 통합 메모리를 미니PC 폼팩터로 쓸 수 있다는 거예요.

  • Beelink GTR9 Pro (128GB): 약 264만원~ (다나와 기준)
  • GMKtec EVO-X2 (128GB, 2TB): 약 250만원~
  • Minisforum MS-S1 MAX (128GB, 2TB): 약 541만원~

출처: 다나와 AI Max+ 395 미니PC 검색

이 외에도 ASUS, Framework 등에서 AI Max+ 탑재 제품을 출시했거나 출시 예정이에요. 가격은 구성(메모리/SSD)과 판매처에 따라 차이가 있으니 다나와에서 직접 비교해보시는 걸 추천합니다.

성능 포지셔닝
#

솔직히 말하면, AI Max+ 395의 llama.cpp 벤치마크 데이터는 아직 충분하지 않아요. 다만 스펙 기반으로 포지셔닝을 해보면:

  • 메모리 대역폭 256 GB/s — DGX Spark(273 GB/s)와 비슷한 수준
  • 통합 메모리 128GB — 70B~120B 모델 탑재 가능
  • 가격 약 250만원~ — DGX Spark OEM(약 525만원~)의 절반 수준

GPU 연산 성능 자체는 RTX PRO나 DGX Spark에 비할 바가 안 되지만, 128GB 통합 메모리를 저렴하게 확보할 수 있다는 게 핵심 가치예요. “느리더라도 큰 모델을 통째로 올리고 싶다"는 분들에게 매력적인 선택지입니다.

다만 ROCm 기반의 소프트웨어 생태계는 CUDA에 비해 아직 성숙도가 떨어지는 편이에요. 실제 사용 시에는 llama.cpp, Ollama 등 ROCm 호환성을 먼저 확인해보시는 게 좋겠습니다.

이런 분에게 추천
#

  • 대형 모델을 저예산으로 돌리고 싶은 분
  • 미니PC 폼팩터를 선호하는 분
  • 속도보다 모델 크기가 우선인 분
  • Linux + ROCm 환경에 익숙한 분

📊 결론: 어떤 플랫폼을 고를까?
#

메모리 대역폭이 핵심이다
#

이번 비교를 통해 가장 명확해진 건 LLM 토큰 생성 속도 ≈ 메모리 대역폭이라는 관계예요.

LLM 추론은 크게 두 단계로 나뉩니다:

  1. 프롬프트 처리 (Prefill) — 연산량(FLOPS)에 비례 → GPU 코어 수가 중요
  2. 토큰 생성 (Decode) — 메모리 대역폭에 비례 → GB/s가 중요

DGX Spark가 1 PFLOP이라는 엄청난 연산력을 가지고 있으면서도 토큰 생성에서 Mac Studio에 밀리는 이유가 바로 이거예요. LPDDR5X 273 GB/s vs 통합 메모리 800 GB/s의 차이가 그대로 체감 속도에 반영됩니다.

용도별 추천
#

“속도가 최우선이다”RTX PRO 6000

  • 96GB GDDR7 + 최고 수준의 메모리 대역폭
  • 120B 모델도 단일 GPU에서 빠르게 추론
  • 대신 1,500만원 이상 + 600W 전력

“대형 모델을 편하게 올리고 싶다”Mac Studio M3 Ultra

  • 최대 512GB 통합 메모리로 양자화 부담 없음
  • 800 GB/s 대역폭으로 토큰 생성도 준수
  • 659만원~으로 상대적 가성비 양호

“올인원 NVIDIA 생태계가 필요하다”DGX Spark

  • 128GB + CUDA/TensorRT 완전 지원
  • 배치 추론에서 강력한 성능
  • 약 525만원~(ASUS OEM 기준)으로 NVIDIA 올인원 입문

“예산이 한정적이지만 큰 모델을 돌리고 싶다”AMD AI Max+ 미니PC

  • 128GB 통합 메모리를 약 250만원~에 확보
  • 속도는 양보하되 모델 크기에서 타협 없음
  • 미니PC 폼팩터로 공간 효율적

최종 비교표
#

기준RTX PRO 6000DGX SparkMac Studio M3 UltraAMD AI Max+ 미니PC
추론 속도⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
메모리 용량⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
메모리 대역폭⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
전력 효율⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
가격⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
소프트웨어 생태계⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

💡 마무리하며
#

2026년은 “로컬 AI 하드웨어 춘추전국시대"라고 불러도 과언이 아니예요. 각 플랫폼마다 확실한 장단점이 있고, 정답은 본인의 용도와 예산에 달려 있습니다.

다만 하나 확실한 건, 메모리 대역폭을 꼭 확인하라는 거예요. VRAM이나 통합 메모리 용량만 보고 샀다가 토큰 생성 속도에서 실망할 수 있거든요. DGX Spark의 사례가 딱 그 교훈을 보여주고 있죠.

이 글의 벤치마크 수치와 가격 정보는 작성 시점 기준으로 수집한 거예요. 하드웨어 가격과 소프트웨어 최적화는 빠르게 변하니까, 구매 전에 최신 정보를 반드시 확인해보시길 바랍니다!

혹시 이 중에서 실제로 사용해보신 분이 계시면, 체감 성능이 어떤지 댓글로 공유해주시면 정말 감사하겠습니다. 함께 성장해요! 😊

📚 참고 자료
#

본 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.


💬 댓글