azena local
Du verstehst, warum man KI-Modelle lokal auf der eigenen Hardware laufen lässt — und tust es. Du wählst aus der Open-Model-Landschaft ein passendes Modell, installierst Ollama oder LM Studio, lässt das Modell offline laufen, hängst ein Chat-UI mit RAG über deine eigenen Dokumente davor und schätzt die Trade-offs gegen die Cloud ehrlich ein. Am Ende läuft ein privater Assistent, der ohne Internet antwortet und bei dem kein Byte deiner Daten den Rechner verlässt.
Was du danach kannst
- Begründen, wann lokale KI der Cloud vorzuziehen ist (Datenschutz, Kosten, Kontrolle, Offline)
- Die Open-Model-Landschaft einordnen (Familien, Größen) und die Live-Library statt fixer Versionen prüfen
- Ollama oder LM Studio installieren und ein lokales Modell laufen lassen
- Modell & Quantisierung an die eigene Hardware anpassen (GGUF, VRAM-Faustregel)
- Ein lokales Chat-UI mit RAG über eigene Dokumente aufsetzen und Tools anbinden
- Lizenzen unterscheiden (Apache 2.0 vs. bespoke) und die Hardware-/Qualitätsgrenzen einschätzen
Das Curriculum
18 Lektionen · Schritt für Schritt
- 01
Warum lokale KI? Datenschutz, Kosten, Kontrolle
9′Drei harte Gründe, ein Modell auf dem eigenen Rechner laufen zu lassen — statt in der Cloud.
- 02
Die Open-Model-Landschaft verstehen
10′Open-Weight-Modelle gibt es in Familien und Größen — und die Versionen wechseln monatlich.
- 03
Ollama installieren — der einfachste Einstieg
9′Ein Open-Source-Tool, ein Befehl — und ein Modell läuft lokal auf deinem Rechner.
- 04
Dein erstes lokales Modell laufen lassen
8′Klein anfangen: ein 3B-8B-Modell, einmal warten, danach offline antworten lassen.
- 05
LM Studio — die grafische Oberfläche
9′Lieber klicken als tippen? LM Studio bringt Modell-Browser, Chat-UI und Regler — gratis.
- 06
Modell & Quantisierung wählen — GGUF und VRAM
11′Warum dasselbe Modell in vielen Größen kommt — und welche auf deine Hardware passt.
- 07
Das Kontextfenster — warum lange Eingaben den Speicher sprengen
9′Ein lokales Modell sieht nur ein begrenztes Fenster an Tokens. Wird es überschritten, fällt der Anfang still heraus — und ein größeres Fenster kostet echten Speicher.
- 08
Temperatur, top_p & seed — die Regler für Kreativität vs. Verlässlichkeit
9′Du kannst steuern, WIE ein lokales Modell sein nächstes Wort wählt — von grundsolide und reproduzierbar bis wild und einfallsreich. Temperatur, top_p und seed sind die Regler.
- 09
Ein lokales Chat-UI aufsetzen — Open WebUI
10′Eine schöne, offline-fähige Chat-Oberfläche vor dein lokales Modell — mit RAG über deine Dokumente.
- 10
Lokale Modelle an Tools & Apps anbinden
9′Der OpenAI-kompatible Endpunkt ist der Trick: bestehende Tools auf dein lokales Modell umbiegen.
- 11
Tool-Calling — wenn dein lokales Modell nicht nur redet, sondern handelt
10′Gibst du dem Modell eine Werkzeugliste, antwortet es mit einem strukturierten Aufruf statt aus dem Gedächtnis zu raten — dein Code führt aus und reicht das Ergebnis zurück. Die agentische Schleife, komplett lokal.
- 12
Lokal vs. Cloud — die ehrlichen Trade-offs
9′Kein Lager-Denken: Wann lokal gewinnt, wann die Cloud — und warum Hybrid oft die Antwort ist.
- 13
Datenschutz-Use-Cases für Unternehmen
9′Wo lokale KI im Job konkret glänzt: sensible Dokumente, interne Wissensbasis, Compliance.
- 14
Grenzen — Hardware und die Qualitätslücke
9′Damit du nicht in die typischen Fallen läufst: was lokale KI (noch) nicht kann.
- 15
Lokales RAG vertiefen — eigene Dokumente offline durchsuchbar
11′Wie RAG unter der Haube wirklich arbeitet — Embeddings, Chunks und der Index, alles lokal.
- 16
Performance-Tuning — mehr Tempo aus deiner Hardware
10′Kontextlänge, GPU/CPU-Aufteilung und Speicher: die Stellschrauben, die dein lokales Modell schneller machen.
- 17
Modelle vergleichen & benchmarken — das richtige für die Aufgabe
9′Nicht das "beste" Modell zählt, sondern das beste für DEINE Aufgabe — so findest du es methodisch.
- 18
Capstone-Vorbereitung — dein privater Offline-Assistent
10′Alles zusammen: Modell + UI + RAG, offline verifiziert, mit Lizenz- und VRAM-Check.
Was du baust
Echte Artefakte, keine Theorie
Ollama oder LM Studio installieren und ein Modell laufen lassen
Ergebnis: Ein lokal laufendes Modell + ein Beleg (Screenshot/Notiz), dass es auch ohne Internet antwortet.
Modell & Quantisierung für deine Hardware bestimmen
Ergebnis: Eine kurze Notiz: deine Hardware, die VRAM-Rechnung und 2-3 passende Modell-/Quant-Kandidaten.
Ein lokales Chat-UI mit eigenen Dokumenten aufsetzen
Ergebnis: Ein laufendes lokales Chat-UI, das Fragen aus deinen eigenen Dokumenten korrekt beantwortet.
Capstone: Dein privater, offline-fähiger Wissens-Assistent
Ergebnis: Ein laufender Offline-Assistent (Modell + UI + RAG) + Offline-Nachweis + Setup-Doc + Lizenz-/VRAM-Checkliste.
Der Rechner als Datengrenze
Lokal bleibt jedes Byte auf deiner Hardware — in der Cloud überquert es die Grenze. Sieh den Unterschied, live.
Das ist die Kernidee: die Grenze deiner Hardware. Im lokalen Modus kreisen Dokument, Frage und Antwort innerhalb der Box und prallen an der Grenze ab — nichts verlässt den Rechner, die Grenze pulsiert grün. Im Cloud-Modus löst sich das Paket, überquert die rote Grenze zum Anbieter und zurück. Unten siehst du die zweite harte Grenze: ein GGUF-Modell gleitet in den VRAM-Balken — passt es nicht, läuft er rot über. Lokale KI lebt zwischen genau diesen zwei Grenzen: Datenschutz auf der einen, Speicher auf der anderen Seite.
- DatenschutzDaten bleiben auf der Maschine (DSGVO/Geheimhaltung)Daten verlassen das Haus zum Anbieter
- KostenKeine Pro-Token-Kosten, einmal HardwarePro Aufruf, kein Hardware-Invest
- VerfügbarkeitOffline, ohne Netz nutzbarBraucht Verbindung
- QualitätErreicht oft nicht das Frontier-NiveauSpitzenmodelle sofort verfügbar
Es gibt keinen Gewinner — Hybrid ist legitim: Sensibles lokal, das schwere Spitzenmodell aus der Cloud. Du entscheidest pro Aufgabe, wo die Grenze liegt.
Sensibles bleibt lokal — kein Upload
Verträge oder Personalakten lokal zusammenfassen, RAG über die interne Wissensbasis — ohne dass ein Byte den Rechner verlässt. Genau das macht lokale KI für Unternehmen mit DSGVO- und Geheimhaltungspflicht interessant.
Q4_K_M als VRAM-Kompromiss
GGUF ist das De-facto-Format für lokale Modelle: eine Datei aus Gewichten und Metadaten. Q4_K_M ist der übliche Kompromiss aus Qualität und VRAM. Faustregel: VRAM ≈ Parameter × Bits + Overhead — zu niedrige Bits sparen Speicher, kosten aber Qualität.
Apache 2.0 vs. Llamas eigene Lizenz
Open-Weights wie Qwen, Gemma oder Mistral stehen oft unter Apache 2.0 (kommerziell unbedenklich). Metas Llama hat eine eigene Community-Lizenz mit Sonderklauseln — vor dem kommerziellen Einsatz lesen, das ist ein realer Compliance-Unterschied.
Deinen eigenen offline-fähigen Assistenten innerhalb dieser Grenze bauen — mit Nova als Mentor, von Ollama über GGUF bis zum lokalen RAG.
Track startenBelege & Quellen
Jede Aussage ist belegt — echte, geprüfte Quellen statt Behauptungen.
Reinschnuppern
Gratis-VorschauGO vs. NO-GO — ein echtes Beispiel aus dem Track.
Wie der Track läuft
Mit Nova als Mentor
Dein KI-Mentor erklärt jedes Konzept, gibt dir fertige Claude-Code-Prompts und hilft bei jeder Frage.
Geprüftes Siegel
Erklär Nova, warum und wann du KI lieber lokal laufen lässt als in der Cloud. Beschreibe, wie du aus der Open-Model-Landschaft ein passendes Modell für deine Hardware findest (Familien statt Versionen, VRAM-Faustregel, Quantisierung wie Q4_K_M), mit welchem Tool (Ollama oder LM Studio) du es startest und wie du ein Chat-UI mit RAG über eigene Dokumente davor setzt. Wäge dann lokal vs. Cloud ehrlich ab, nenne den Lizenz-Unterschied (Apache 2.0 vs. Llamas eigene Lizenz) und sag, wie du beim Capstone offline nachweist, dass keine Daten den Rechner verlassen.
In deinem Tempo
Rund 142 Minuten Kerninhalt — plus deine eigenen Projekte. Jederzeit pausierbar.
Fehler, die du vermeidest
- Ein zu großes Modell für die Hardware wählen (z.B. 70B auf 8 GB VRAM) — es lädt nicht oder swappt. Erst VRAM gegen Parameter × Quant rechnen.
- GPT-Klasse-Qualität von einem winzigen Modell erwarten — ein 3B ist nützlich, aber kein Frontier-Modell.
- Lizenzen ignorieren — Qwen/Gemma/Mistral sind oft Apache 2.0, Llama hat eine eigene Lizenz mit Sonderklauseln; vor kommerziellem Einsatz prüfen.
- Blind die niedrigste Quantisierung (Q2) wählen, um Speicher zu sparen — das kostet zu viel Qualität; Q4_K_M ist der bessere Kompromiss.
- Feste Versions-Strings festschreiben — sie ändern sich monatlich und werden zu toten Verweisen; auf die Live-Library verweisen.
Bereit für azena local?
250 Token · 18 Lektionen · von der KI geprüft.