Welche Hardware für das private LLM?
17. Oktober 2025
Die richtige Hardware auf dem Schreibtisch für große LLMs
Die Idee, hochperformante LLMs lokal „auf dem eigenen Schreibtisch“ zu betreiben, klingt ambitioniert, ist aber mit neuester Hardware nicht mehr völlig utopisch. Die DGX Spark bringt NVIDIAs Marke als quasi „Mini-DGX“ ins Spiel, während Apple mit dem M3 Ultra Mac Studio sein Ökosystem für KI-Workflows weiter stärkt. Ein Spezial-Rechner für LLMs oder lieber ein vielseitiges System, das mehr kann, aber womöglich leistungsmäßig hinterherhinkt?
Welches System ist hardwareseitig stärker für LLMs?
DGX Spark
- Ein Superchip-Design: Grace-Blackwell GB10 mit einer Kombination aus Arm-CPU und Blackwell-GPU, mit 128 GB gemeinsamer (kohärenter) Unified Memory.
- Speicherbandbreite: ~273 GB/s über 256-Bit Interface laut offiziellen Daten.
- Speicheroptionen: Bis zu 4 TB NVMe als Sekundärspeicher.
- Leistung: NVIDIA bewirbt „1 PFLOP“ AI-Leistung (bei quantisierten Formaten) für Inferenzen.
- Erweiterungsmöglichkeiten: Man kann offenbar zwei DGX Spark-Einheiten per ConnectX-7 verbinden, um Modelle bis zu ~405 B Parametern zu unterstützen (begrenzt durch kumuliertes Unified Memory).
- Stromverbrauch & Effizienz: Es werden rund 170 W als typische Last angegeben, was relativ moderat ist für so viel Compute.
Mac Studio mit M3 Ultra
- Apple M3 Ultra vereint zwei M3 Max-Dies (UltraFusion) zu einem SoC mit bis zu 32 CPU-Kernen (24 Performance / 8 Efficiency) und bis zu 80 GPU-Kernen, plus 32-Kern Neural Engine.
- Unified Memory: Bis zu 512 GB konfigurierbar.
- Speicherbandbreite: In der Größenordnung von hunderten von GB/s, Apple spricht von „Memory Bandwidth“ (für große Konstellationen teils über 800 GB/s) in optimierten Konfigurationen.
- Energie & Effizienz: Apple-Plattformen sind bekannt für gute Energieeffizienz, vor allem im Verhältnis zur gebotenen Rechenleistung.
- Viel „Headroom“ im Speicher, was besonders bei langen Kontextfenstern oder vielen parallelen Modellen hilfreich ist.
Rein auf rohe Leistung und Speicherausstattung gesehen, scheint der DGX Spark in Bezug auf inferenzoptimierte Workloads (z.B. Tensor Cores, quantisierte Modelle) einen Vorteil zu besitzen. Die Apple-Seite trumpft jedoch mit extrem viel Speicher (512 GB) und einem integrierten, durchgängigen System mit hohem Optimierungspotenzial.
Wie sehen die Anschaffungskosten aus?
- DGX Spark: Der offizielle Preis beträgt USD 3.999 (Founders Edition) laut NVIDIA, in einigen Vorbestellungslisten werden aber auch USD 4.299 genannt.
- Mac Studio M3 Ultra: Der Einstiegspreis (Basis-Version) liegt bereits etwas höher bei 4.799 Euro, für eine voll ausgestattete Konfiguration mit stolzen 512 GB Unified Memory und großen SSDs steigt der Preis schnell über die 10.000 Euro Grenze und kann bis auf 17.000 Euro getrieben werden! Apple hat im Highendbereich traditionell größere Preissprünge bei Speicher und SSDs.
Beide Systeme starten in derselben Preisregion, aber Apples Preissprünge bei Speicher und SSD können das System deutlich teurer machen als ein vergleichbares DGX Spark.
Wie unterscheidet sich der Einsatz in der Praxis?
Hier kommt eine wichtige Nuance ins Spiel. Der Mac Studio M3 Ultra ist ein vollständiger Desktop-Rechner mit MacOS und allen Vor- und Nachteilen des Öko-Systems, generisch einsetzbar und bewährt für den Dauerbetrieb auf dem Schreibtisch mit passenden Kühlungseigenschaften.
Er ist sofort nutzbar als Arbeitsmaschine für alle Aufgaben, das LLM läuft lokal auf dem Gerät. Der Setup ist einfach, Updates und Wartung sind komplett automatisiert. Allerdings belasten LLM Abfragen auch die Performance für andere Anwendungen.
Der Nvidia DGX Spark kann auch als eigener Rechner mit Ubuntu betrieben werden, wird aber vermutlich häufiger als Rechenbeschleuniger und lokale AI-Appliance im lokalen Netzwerk genutzt werden. Er ist sehr kompakt und für Dauerbetrieb in Laborumgebungen ausgelegt, aber Kühlbedingungen und Lüftung müssen sichergestellt werden.
Als eigenständige AI Appliance im lokalen Netzwerk fungiert er als dedizierter Inferenz-Server, auf den andere Geräte zugreifen können. Die Verbindung erfolgt typischerweise über Gigabit- oder 200-Gigabit-Ethernet über die integrierte ConnectX-7-Schnittstelle. Nach der Einrichtung des DGX OS (Ubuntu-basiert) wird der Spark im sogenannten Appliance Mode headless betrieben. Ein beliebiger Host-Rechner kann dann über SSH, NVIDIA Sync oder eine Tunnelverbindung sicher auf das Gerät zugreifen. Dabei werden Modell-Container und Dienste, etwa über Docker Model Runner oder TensorRT-LLM-Server, auf dem Spark ausgeführt, während der Host nur die API-Anfragen stellt. So lässt sich der Spark wie ein lokaler OpenAI-kompatibler Endpoint nutzen, der sämtliche Rechenarbeit übernimmt, während Entwicklung, Prompt-Erstellung und Datenaustausch komfortabel am gewohnten Arbeitsrechner erfolgen und ohne die lokale Rechenleistung zu beeinflussen.
Im Stromverbrauch sind keine großen Unterschiede zu erwarten, beide Modelle sind bei ca. 170W bis 200W Leistungsaufnahme unter Last zu erwarten. Beim DGX als AI Appliance wird natürlich ein weiterer Host Rechner benötigt, der, je nach Anwendung und Last, weitere 30-80W Lestung aufnimmt.
Welche LLM Modelle können betrieben werden?
NVIDIA bewirbt, dass am Spark Modelle bis 200 Milliarden Parameter (200B) lokal laufen können (bei quantisierten Formaten). Wenn man zwei Einheiten koppelt, ist eine kombinierte 405B Parameter Ausführung möglich, mit dann 256 GB Unified Memory und wiederum bei quantisierten Workloads.
In der Praxis sollte ein Llama 3 mit 70B, quantisiert, problemlos ausführbar sein, vielleicht auch eine 120B-Variante bei genügender Quantisierung. Mistral und Phi (quantisiert oder effizient implementiert) sollten im Bereich von 30–70B ebenso ausführbar sein. Bei extrem großen MoE-Modellen (Mixture of Experts) oder ultraweiten Kontexten könnte der Speicher oder Kommunikationsüberhang zum limitierenden Faktor werden.
Auf einem Mac Studio M3 Ultra in Maximalausstattung mit 512 GB Unified Memory lassen sich in der Praxis typischerweise LLMs aus der Größenordnung von 20B bis 70B Parametern performant betreiben, vorausgesetzt, sie sind stark quantisiert. Community-Benchmarks zeigen, dass etwa ein groß quantisiertes Modell mit 70B Parametern noch machbar ist, mit Tokenraten im zweistelligen Bereich. Für Modelle weit darüber hinaus, in voller Präzision, oder extrem große Mixture-of-Experts Varianten, stößt man in der Regel an Speicher- oder Performancegrenzen.
Fazit – welcher Weg passt zu welchem Anwender?
Wenn du maximale Inferenzleistung für große LLMs willst und kein Problem damit hast, etwas mehr Setup-Aufwand zu betreiben, ist der DGX Spark als spezialisierte KI-Appliance eine sehr starke Wahl. Er liefert bessere Durchsätze, klare Skalierungsmöglichkeiten und enge Anbindung an das NVIDIA-Ökosystem. Der Spark bietet insgesamt mehr „Luft nach oben“ für große Modelle und höhere Durchsätze, besonders wenn du mit quantisierten Varianten arbeitest.
Wenn du aber ein Gerät willst, das sofort funktioniert, deinen Alltag als Entwickler erfüllt und du oft mit mittleren bis großen Modellen arbeitest, dann kann auch der Mac Studio M3 Ultra in einer mittleren Konfiguration als Allround-Talent eine gute Wahl sein. Für anspruchsvollere Aufgaben verdirbt die Apple Aufpreisliste allerdings die Stimmung, hier würde ich auf einen "einfacheren" Mac mit dem DGX Spark als AI Appliance zurückgreifen.
Experten mit Struktur und auf Augenhöhe
finden Sie bei der F&P Executive Solutions AG.