Spezialisierungs-Track

azena local

Du verstehst, warum man KI-Modelle lokal auf der eigenen Hardware laufen lässt — und tust es. Du wählst aus der Open-Model-Landschaft ein passendes Modell, installierst Ollama oder LM Studio, lässt das Modell offline laufen, hängst ein Chat-UI mit RAG über deine eigenen Dokumente davor und schätzt die Trade-offs gegen die Cloud ehrlich ein. Am Ende läuft ein privater Assistent, der ohne Internet antwortet und bei dem kein Byte deiner Daten den Rechner verlässt.

18 Lektionen 142 Min 250 Token Detailseite gratis

Track starten 250 TokenKI auf deinem Rechner — privat, offline, unter Kontrolle.

Was du danach kannst

Begründen, wann lokale KI der Cloud vorzuziehen ist (Datenschutz, Kosten, Kontrolle, Offline)
Die Open-Model-Landschaft einordnen (Familien, Größen) und die Live-Library statt fixer Versionen prüfen
Ollama oder LM Studio installieren und ein lokales Modell laufen lassen
Modell & Quantisierung an die eigene Hardware anpassen (GGUF, VRAM-Faustregel)
Ein lokales Chat-UI mit RAG über eigene Dokumente aufsetzen und Tools anbinden
Lizenzen unterscheiden (Apache 2.0 vs. bespoke) und die Hardware-/Qualitätsgrenzen einschätzen

Das Curriculum

18 Lektionen · Schritt für Schritt

01
Warum lokale KI? Datenschutz, Kosten, Kontrolle
9′
Drei harte Gründe, ein Modell auf dem eigenen Rechner laufen zu lassen — statt in der Cloud.
02
Die Open-Model-Landschaft verstehen
10′
Open-Weight-Modelle gibt es in Familien und Größen — und die Versionen wechseln monatlich.
03
Ollama installieren — der einfachste Einstieg
9′
Ein Open-Source-Tool, ein Befehl — und ein Modell läuft lokal auf deinem Rechner.
04
Dein erstes lokales Modell laufen lassen
8′
Klein anfangen: ein 3B-8B-Modell, einmal warten, danach offline antworten lassen.
05
LM Studio — die grafische Oberfläche
9′
Lieber klicken als tippen? LM Studio bringt Modell-Browser, Chat-UI und Regler — gratis.
06
Modell & Quantisierung wählen — GGUF und VRAM
11′
Warum dasselbe Modell in vielen Größen kommt — und welche auf deine Hardware passt.
07
Das Kontextfenster — warum lange Eingaben den Speicher sprengen
9′
Ein lokales Modell sieht nur ein begrenztes Fenster an Tokens. Wird es überschritten, fällt der Anfang still heraus — und ein größeres Fenster kostet echten Speicher.
08
Temperatur, top_p & seed — die Regler für Kreativität vs. Verlässlichkeit
9′
Du kannst steuern, WIE ein lokales Modell sein nächstes Wort wählt — von grundsolide und reproduzierbar bis wild und einfallsreich. Temperatur, top_p und seed sind die Regler.
09
Ein lokales Chat-UI aufsetzen — Open WebUI
10′
Eine schöne, offline-fähige Chat-Oberfläche vor dein lokales Modell — mit RAG über deine Dokumente.
10
Lokale Modelle an Tools & Apps anbinden
9′
Der OpenAI-kompatible Endpunkt ist der Trick: bestehende Tools auf dein lokales Modell umbiegen.
11
Tool-Calling — wenn dein lokales Modell nicht nur redet, sondern handelt
10′
Gibst du dem Modell eine Werkzeugliste, antwortet es mit einem strukturierten Aufruf statt aus dem Gedächtnis zu raten — dein Code führt aus und reicht das Ergebnis zurück. Die agentische Schleife, komplett lokal.
12
Lokal vs. Cloud — die ehrlichen Trade-offs
9′
Kein Lager-Denken: Wann lokal gewinnt, wann die Cloud — und warum Hybrid oft die Antwort ist.
13
Datenschutz-Use-Cases für Unternehmen
9′
Wo lokale KI im Job konkret glänzt: sensible Dokumente, interne Wissensbasis, Compliance.
14
Grenzen — Hardware und die Qualitätslücke
9′
Damit du nicht in die typischen Fallen läufst: was lokale KI (noch) nicht kann.
15
Lokales RAG vertiefen — eigene Dokumente offline durchsuchbar
11′
Wie RAG unter der Haube wirklich arbeitet — Embeddings, Chunks und der Index, alles lokal.
16
Performance-Tuning — mehr Tempo aus deiner Hardware
10′
Kontextlänge, GPU/CPU-Aufteilung und Speicher: die Stellschrauben, die dein lokales Modell schneller machen.
17
Modelle vergleichen & benchmarken — das richtige für die Aufgabe
9′
Nicht das "beste" Modell zählt, sondern das beste für DEINE Aufgabe — so findest du es methodisch.
18
Capstone-Vorbereitung — dein privater Offline-Assistent
10′
Alles zusammen: Modell + UI + RAG, offline verifiziert, mit Lizenz- und VRAM-Check.

Was du baust

Echte Artefakte, keine Theorie

Ollama oder LM Studio installieren und ein Modell laufen lassen

Ergebnis: Ein lokal laufendes Modell + ein Beleg (Screenshot/Notiz), dass es auch ohne Internet antwortet.

Modell & Quantisierung für deine Hardware bestimmen

Ergebnis: Eine kurze Notiz: deine Hardware, die VRAM-Rechnung und 2-3 passende Modell-/Quant-Kandidaten.

Ein lokales Chat-UI mit eigenen Dokumenten aufsetzen

Ergebnis: Ein laufendes lokales Chat-UI, das Fragen aus deinen eigenen Dokumenten korrekt beantwortet.

Capstone: Dein privater, offline-fähiger Wissens-Assistent

Ergebnis: Ein laufender Offline-Assistent (Modell + UI + RAG) + Offline-Nachweis + Setup-Doc + Lizenz-/VRAM-Checkliste.

Der Rechner als Datengrenze

Lokal bleibt jedes Byte auf deiner Hardware — in der Cloud überquert es die Grenze. Sieh den Unterschied, live.

Das ist die Kernidee: die Grenze deiner Hardware. Im lokalen Modus kreisen Dokument, Frage und Antwort innerhalb der Box und prallen an der Grenze ab — nichts verlässt den Rechner, die Grenze pulsiert grün. Im Cloud-Modus löst sich das Paket, überquert die rote Grenze zum Anbieter und zurück. Unten siehst du die zweite harte Grenze: ein GGUF-Modell gleitet in den VRAM-Balken — passt es nicht, läuft er rot über. Lokale KI lebt zwischen genau diesen zwei Grenzen: Datenschutz auf der einen, Speicher auf der anderen Seite.

Lokal Cloud

DatenschutzDaten bleiben auf der Maschine (DSGVO/Geheimhaltung)Daten verlassen das Haus zum Anbieter
KostenKeine Pro-Token-Kosten, einmal HardwarePro Aufruf, kein Hardware-Invest
VerfügbarkeitOffline, ohne Netz nutzbarBraucht Verbindung
QualitätErreicht oft nicht das Frontier-NiveauSpitzenmodelle sofort verfügbar

Es gibt keinen Gewinner — Hybrid ist legitim: Sensibles lokal, das schwere Spitzenmodell aus der Cloud. Du entscheidest pro Aufgabe, wo die Grenze liegt.

Datenschutz-Use-Cases

Sensibles bleibt lokal — kein Upload

Verträge oder Personalakten lokal zusammenfassen, RAG über die interne Wissensbasis — ohne dass ein Byte den Rechner verlässt. Genau das macht lokale KI für Unternehmen mit DSGVO- und Geheimhaltungspflicht interessant.

GGUF / Quantisierung

Q4_K_M als VRAM-Kompromiss

GGUF ist das De-facto-Format für lokale Modelle: eine Datei aus Gewichten und Metadaten. Q4_K_M ist der übliche Kompromiss aus Qualität und VRAM. Faustregel: VRAM ≈ Parameter × Bits + Overhead — zu niedrige Bits sparen Speicher, kosten aber Qualität.

Lizenz prüfen

Apache 2.0 vs. Llamas eigene Lizenz

Open-Weights wie Qwen, Gemma oder Mistral stehen oft unter Apache 2.0 (kommerziell unbedenklich). Metas Llama hat eine eigene Community-Lizenz mit Sonderklauseln — vor dem kommerziellen Einsatz lesen, das ist ein realer Compliance-Unterschied.

Deinen eigenen offline-fähigen Assistenten innerhalb dieser Grenze bauen — mit Nova als Mentor, von Ollama über GGUF bis zum lokalen RAG.

Track starten

Belege & Quellen

Jede Aussage ist belegt — echte, geprüfte Quellen statt Behauptungen.

Ollama — Model Library Ollama (GitHub) — README LM Studio — App Docs Hugging Face — GGUF (Hub Docs)Ollama · FAQ (offizielle Doku)Ollama · docs/faq.mdx (GitHub)Ollama · Modelfile Reference (offizielle Doku)Ollama · docs/modelfile.mdx (GitHub)Open WebUI (GitHub)Ollama · Tool calling (offizielle Doku)Ollama Blog · Tool support Qwen (Alibaba) — Model Card / LICENSE

Reinschnuppern

Gratis-Vorschau

GO vs. NO-GO — ein echtes Beispiel aus dem Track.

Wie der Track läuft

Mit Nova als Mentor

Dein KI-Mentor erklärt jedes Konzept, gibt dir fertige Claude-Code-Prompts und hilft bei jeder Frage.

Geprüftes Siegel

Erklär Nova, warum und wann du KI lieber lokal laufen lässt als in der Cloud. Beschreibe, wie du aus der Open-Model-Landschaft ein passendes Modell für deine Hardware findest (Familien statt Versionen, VRAM-Faustregel, Quantisierung wie Q4_K_M), mit welchem Tool (Ollama oder LM Studio) du es startest und wie du ein Chat-UI mit RAG über eigene Dokumente davor setzt. Wäge dann lokal vs. Cloud ehrlich ab, nenne den Lizenz-Unterschied (Apache 2.0 vs. Llamas eigene Lizenz) und sag, wie du beim Capstone offline nachweist, dass keine Daten den Rechner verlassen.

In deinem Tempo

Rund 142 Minuten Kerninhalt — plus deine eigenen Projekte. Jederzeit pausierbar.

Fehler, die du vermeidest

Ein zu großes Modell für die Hardware wählen (z.B. 70B auf 8 GB VRAM) — es lädt nicht oder swappt. Erst VRAM gegen Parameter × Quant rechnen.
GPT-Klasse-Qualität von einem winzigen Modell erwarten — ein 3B ist nützlich, aber kein Frontier-Modell.
Lizenzen ignorieren — Qwen/Gemma/Mistral sind oft Apache 2.0, Llama hat eine eigene Lizenz mit Sonderklauseln; vor kommerziellem Einsatz prüfen.
Blind die niedrigste Quantisierung (Q2) wählen, um Speicher zu sparen — das kostet zu viel Qualität; Q4_K_M ist der bessere Kompromiss.
Feste Versions-Strings festschreiben — sie ändern sich monatlich und werden zu toten Verweisen; auf die Live-Library verweisen.

Bereit für azena local?

250 Token · 18 Lektionen · von der KI geprüft.

250 TokenTrack starten

azena local

Was du danach kannst

Das Curriculum

Warum lokale KI? Datenschutz, Kosten, Kontrolle

Die Open-Model-Landschaft verstehen

Ollama installieren — der einfachste Einstieg

Dein erstes lokales Modell laufen lassen

LM Studio — die grafische Oberfläche

Modell & Quantisierung wählen — GGUF und VRAM

Das Kontextfenster — warum lange Eingaben den Speicher sprengen

Temperatur, top_p & seed — die Regler für Kreativität vs. Verlässlichkeit

Ein lokales Chat-UI aufsetzen — Open WebUI

Lokale Modelle an Tools & Apps anbinden

Tool-Calling — wenn dein lokales Modell nicht nur redet, sondern handelt

Lokal vs. Cloud — die ehrlichen Trade-offs

Datenschutz-Use-Cases für Unternehmen

Grenzen — Hardware und die Qualitätslücke

Lokales RAG vertiefen — eigene Dokumente offline durchsuchbar

Performance-Tuning — mehr Tempo aus deiner Hardware

Modelle vergleichen & benchmarken — das richtige für die Aufgabe

Capstone-Vorbereitung — dein privater Offline-Assistent