Das eigene LLM betreiben?

24. September 2025

Ganz einfach eigene LLMs lokal und privat betreiben?

Große Sprachmodelle wie GPT, Claude oder Gemini sind inzwischen fast überall verfügbar. Aber sie laufen meist auf Servern großer Anbieter, bei denen man nicht genau weiß, was mit den eingegebenen Daten passiert. Wer sensible Informationen verarbeitet oder einfach volle Kontrolle über die Daten behalten möchte, kann auf lokale LLMs ausweichen. Inzwischen gibt es dafür stabile Open-Source-Modelle, die auf dem eigenen Rechner ohne Internetverbindung laufen können.

Welche Vorteile bringt ein lokal betriebenes LLM?

Ein lokal betriebenes Modell bietet maximale Datensouveränität. Alles bleibt auf dem eigenen Rechner. Kein Anbieter kann Suchverläufe speichern, keine Cloud synchronisiert Texte. Auch bei der Nutzung in sensiblen Bereichen wie Medizin, Recht oder Unternehmensdaten kann das ein entscheidender Faktor sein. Ein weiterer Vorteil ist die Offline-Verfügbarkeit. Einmal installiert, kann man das Modell jederzeit nutzen, auch ohne Internet.

Was brauche ich an Hardware?

Die Hardwareanforderungen hängen stark von der Modellgröße ab und dürfen nicht unterschätzt werden. Regelmäßig lesen wir über riesigen Rechenzentren und die Kosten der KI Modelle, auf dem eignene Rechner kann man dies nun selbst erleben. Selbst sehr kleine und ältere Modelle zwingen den Rechner schnell in die Knie. Während seit Jahren unsere Rechner immer üderdimensioniert erschienen, gibt es jetzt endlich wieder gute Gründe auf die Hardware Specs zu schauen.

Kleinere Modelle wie Mistral 7B oder Phi-2 lassen sich bereits auf leistungsfähigen Laptops oder Desktop-PCs betreiben. Wer größere Modelle wie Llama 3 mit 13 oder gar 70 Milliarden Parametern ausprobieren möchte, braucht mindestens 32 bis 64 GB RAM und eine aktuelle GPU mit 16 bis 24 GB VRAM. Ohne GPU wird es bei größeren Modellen sehr langsam. Für Einsteiger reicht jedoch meist ein Mittelklasse-Rechner mit 16 GB RAM und etwas Geduld bei der Reaktionszeit.

Welche Tools machen die Nutzung einfach?

Zwei besonders benutzerfreundliche Lösungen haben sich etabliert: Ollama und LM Studio.

Ollama ist eine minimalistische Plattform für macOS, Linux und Windows. Nach der Installation kann man direkt über das Terminal Modelle wie Llama 2, Mistral, Phi oder Gemma ausführen. Die Bedienung ist einfach und alles läuft lokal. Ollama unterstützt zudem GPU-Beschleunigung, automatische Modell-Downloads und eine einfache Verwaltung.

LM Studio richtet sich eher an Nutzerinnen und Nutzer, die eine grafische Oberfläche bevorzugen. Es bietet eine einfache Möglichkeit, Modelle herunterzuladen, zu verwalten und direkt in einem Chatfenster zu nutzen. Auch hier läuft alles lokal, ohne Cloud-Anbindung. Praktisch: Man kann das Modell wechseln oder eigene Modelle einbinden, ohne tief in die Technik einzusteigen.

Beide Tools bringen ihre eigenen Laufzeitumgebungen mit. Man muss sich nicht um Python-Umgebungen oder Serverprozesse kümmern. Alles funktioniert „out of the box“.

Wie sicher ist mein Rechner bei der Nutzung?

Wenn man ein LLM lokal betreibt, ist man selbst verantwortlich für die Sicherheit. Die Modelle an sich enthalten keine Tracking-Komponenten. Wichtig ist aber, dass der eigene Rechner abgesichert ist. Dazu gehören:

Aktuelle Betriebssystem-Updates
Keine unnötige Internetfreigabe der Ports
Keine Dritt-Plugins oder Add-ons ohne Prüfung
Regelmäßige Kontrolle von Hintergrundprozessen
Ein aktueller und aktiver Virenscanner
Die Verschlüsselung der eigenen Festplatte
Keine Nutzung von offenen WLANs oder zumindest geschützt durch ein VPN

Ein lokal betriebenes LLM sendet standardmäßig keine Daten ins Internet. Trotzdem sollte man bei der Installation von Modellen auf die Quelle achten. Repositories wie Hugging Face oder die offiziellen Webseiten der Anbieter sind meist vertrauenswürdig.

Wie lösche ich alle Daten wieder vollständig?

Wer das lokale Modell nur testweise nutzen möchte, kann alles rückstandslos entfernen. Bei Ollama genügt der Befehl ollama remove <modellname> für einzelne Modelle. Mit ollama purge entfernt man alle Modelle und Caches vollständig.

LM Studio speichert die heruntergeladenen Modelle in einem definierten Ordner. Dieser kann manuell geleert werden. Auch die Chatverläufe lassen sich direkt in der App löschen.

Zusätzlich sollte man bei sensiblen Texten auch lokale Zwischenspeicher oder Backup-Systeme überprüfen. Auf Wunsch kann man auch sogenannte „secure delete“-Tools verwenden, die Daten mehrfach überschreiben.

Welche Modelle eignen sich besonders gut?

Für viele Anwendungsfälle reicht ein kompaktes Modell mit hoher Effizienz. Aktuell gute Optionen:

Mistral 7B: Schnell, effizient, gute Antworten
Phi-2: Kleines Modell mit überraschend guter Qualität
Gemma 7B: Von Google, hohe Qualität in der deutschen Sprache
Llama 3 (8B oder 13B): Etwas größer, sehr leistungsfähig

Alle Modelle lassen sich in Ollama oder LM Studio direkt testen. Viele davon sind bereits quantisiert verfügbar, also für den Einsatz auf Standard-Hardware optimiert.

Was bedeutet die Modellgröße in der Praxis und was darf man erwarten?

Beim Vergleich von Sprachmodellen tauchen oft Bezeichnungen wie „7B“, „13B“ oder „70B“ auf. Diese Zahlen stehen für die Anzahl der Parameter im Modell, also die „Gewichtungen“, die beim Training gelernt wurden.

Ein Modell mit 7 Milliarden Parametern (7B) ist also deutlich kleiner als eines mit 70 Milliarden. Die Größe beeinflusst direkt die benötigte Hardwareleistung. Ein 7B-Modell läuft oft noch flüssig auf einem modernen Laptop mit 16 GB RAM und integrierter GPU. Ab 13B-Modellen wird es anspruchsvoller: Hier braucht es in der Regel eine dedizierte GPU mit mindestens 12 bis 24 GB VRAM oder sehr viel Hauptspeicher und Geduld beim Rechnen.

Wichtig ist: Ein lokales 7B- oder 13B-Modell ist nicht direkt mit ChatGPT-4 oder ChatGPT-5 vergleichbar. Diese proprietären Modelle von OpenAI laufen auf massiv skalierter Infrastruktur mit möglicherweise über 100 Milliarden Parametern und zahlreichen Optimierungen. Das bedeutet: Ein lokales Modell kann durchaus beeindruckende Leistungen zeigen, ist aber bei komplexen Aufgaben, mehrstufigem Denken oder speziellen Domänen oft weniger präzise oder konsistent.

Beispiel: Was ist mit einem MacBook Air M2 und 8 GB RAM möglich?

Wer jetzt direkt sein LLM Abo kündigen möchte, ein kurzes Beispiel. Auf einem MacBook Air M2 mit 8 GB Arbeitsspeicher lassen sich einfache LLMs mit einer Größe von 3B bis 4B lokal nutzen, mit gewissen Einschränkungen bei Geschwindigkeit und Kontextgröße.

Diese Modelle bieten bereits brauchbare Ergebnisse für einfache Textaufgaben, kurze Dialoge oder Brainstorming. Sie erreichen jedoch nicht das Niveau von GPT-4 oder GPT-5, weder bei Kontexttiefe noch bei logischer Korrektheit über längere Antworten hinweg. Gegenüber GPT-5 ist die Leistung eher mit einem stark abgespeckten GPT-3.5 vergleichbar.

Fazit: Für wen lohnt sich der lokale Betrieb?

Der lokale Betrieb eines LLMs ist ideal für alle, die Wert auf Datenschutz legen oder ohne Cloud arbeiten möchten. Auch Entwicklerinnen und Entwickler, die ein Modell in ihre eigene Software einbinden wollen, profitieren von der vollen Kontrolle. Der Einstieg ist dank Tools wie Ollama und LM Studio einfach geworden. Wer die nötige Hardware besitzt, kann innerhalb weniger Minuten starten. Und wer fertig ist, kann alles wieder restlos entfernen.

Die Zukunft der LLMs muss nicht zwangsläufig in der Cloud liegen. Mit lokalen Modellen lässt sich auch privat und sicher arbeiten, ohne dass der eigene Text irgendwo gespeichert wird.

Experten mit Struktur und auf Augenhöhe

finden Sie bei der F&P Executive Solutions AG.