Zum Inhalt springen
Alle Tracks
Spezialisierungs-Track

azena local

Du verstehst, warum man KI-Modelle lokal auf der eigenen Hardware laufen lässt — und tust es. Du wählst aus der Open-Model-Landschaft ein passendes Modell, installierst Ollama oder LM Studio, lässt das Modell offline laufen, hängst ein Chat-UI mit RAG über deine eigenen Dokumente davor und schätzt die Trade-offs gegen die Cloud ehrlich ein. Am Ende läuft ein privater Assistent, der ohne Internet antwortet und bei dem kein Byte deiner Daten den Rechner verlässt.

18 Lektionen 142 Min 250 Token Detailseite gratis
Track starten 250 TokenKI auf deinem Rechner — privat, offline, unter Kontrolle.

Was du danach kannst

  • Begründen, wann lokale KI der Cloud vorzuziehen ist (Datenschutz, Kosten, Kontrolle, Offline)
  • Die Open-Model-Landschaft einordnen (Familien, Größen) und die Live-Library statt fixer Versionen prüfen
  • Ollama oder LM Studio installieren und ein lokales Modell laufen lassen
  • Modell & Quantisierung an die eigene Hardware anpassen (GGUF, VRAM-Faustregel)
  • Ein lokales Chat-UI mit RAG über eigene Dokumente aufsetzen und Tools anbinden
  • Lizenzen unterscheiden (Apache 2.0 vs. bespoke) und die Hardware-/Qualitätsgrenzen einschätzen

Das Curriculum

18 Lektionen · Schritt für Schritt

  1. 01

    Warum lokale KI? Datenschutz, Kosten, Kontrolle

    9

    Drei harte Gründe, ein Modell auf dem eigenen Rechner laufen zu lassen — statt in der Cloud.

  2. 02

    Die Open-Model-Landschaft verstehen

    10

    Open-Weight-Modelle gibt es in Familien und Größen — und die Versionen wechseln monatlich.

  3. 03

    Ollama installieren — der einfachste Einstieg

    9

    Ein Open-Source-Tool, ein Befehl — und ein Modell läuft lokal auf deinem Rechner.

  4. 04

    Dein erstes lokales Modell laufen lassen

    8

    Klein anfangen: ein 3B-8B-Modell, einmal warten, danach offline antworten lassen.

  5. 05

    LM Studio — die grafische Oberfläche

    9

    Lieber klicken als tippen? LM Studio bringt Modell-Browser, Chat-UI und Regler — gratis.

  6. 06

    Modell & Quantisierung wählen — GGUF und VRAM

    11

    Warum dasselbe Modell in vielen Größen kommt — und welche auf deine Hardware passt.

  7. 07

    Das Kontextfenster — warum lange Eingaben den Speicher sprengen

    9

    Ein lokales Modell sieht nur ein begrenztes Fenster an Tokens. Wird es überschritten, fällt der Anfang still heraus — und ein größeres Fenster kostet echten Speicher.

  8. 08

    Temperatur, top_p & seed — die Regler für Kreativität vs. Verlässlichkeit

    9

    Du kannst steuern, WIE ein lokales Modell sein nächstes Wort wählt — von grundsolide und reproduzierbar bis wild und einfallsreich. Temperatur, top_p und seed sind die Regler.

  9. 09

    Ein lokales Chat-UI aufsetzen — Open WebUI

    10

    Eine schöne, offline-fähige Chat-Oberfläche vor dein lokales Modell — mit RAG über deine Dokumente.

  10. 10

    Lokale Modelle an Tools & Apps anbinden

    9

    Der OpenAI-kompatible Endpunkt ist der Trick: bestehende Tools auf dein lokales Modell umbiegen.

  11. 11

    Tool-Calling — wenn dein lokales Modell nicht nur redet, sondern handelt

    10

    Gibst du dem Modell eine Werkzeugliste, antwortet es mit einem strukturierten Aufruf statt aus dem Gedächtnis zu raten — dein Code führt aus und reicht das Ergebnis zurück. Die agentische Schleife, komplett lokal.

  12. 12

    Lokal vs. Cloud — die ehrlichen Trade-offs

    9

    Kein Lager-Denken: Wann lokal gewinnt, wann die Cloud — und warum Hybrid oft die Antwort ist.

  13. 13

    Datenschutz-Use-Cases für Unternehmen

    9

    Wo lokale KI im Job konkret glänzt: sensible Dokumente, interne Wissensbasis, Compliance.

  14. 14

    Grenzen — Hardware und die Qualitätslücke

    9

    Damit du nicht in die typischen Fallen läufst: was lokale KI (noch) nicht kann.

  15. 15

    Lokales RAG vertiefen — eigene Dokumente offline durchsuchbar

    11

    Wie RAG unter der Haube wirklich arbeitet — Embeddings, Chunks und der Index, alles lokal.

  16. 16

    Performance-Tuning — mehr Tempo aus deiner Hardware

    10

    Kontextlänge, GPU/CPU-Aufteilung und Speicher: die Stellschrauben, die dein lokales Modell schneller machen.

  17. 17

    Modelle vergleichen & benchmarken — das richtige für die Aufgabe

    9

    Nicht das "beste" Modell zählt, sondern das beste für DEINE Aufgabe — so findest du es methodisch.

  18. 18

    Capstone-Vorbereitung — dein privater Offline-Assistent

    10

    Alles zusammen: Modell + UI + RAG, offline verifiziert, mit Lizenz- und VRAM-Check.

Was du baust

Echte Artefakte, keine Theorie

Ollama oder LM Studio installieren und ein Modell laufen lassen

Ergebnis: Ein lokal laufendes Modell + ein Beleg (Screenshot/Notiz), dass es auch ohne Internet antwortet.

Modell & Quantisierung für deine Hardware bestimmen

Ergebnis: Eine kurze Notiz: deine Hardware, die VRAM-Rechnung und 2-3 passende Modell-/Quant-Kandidaten.

Ein lokales Chat-UI mit eigenen Dokumenten aufsetzen

Ergebnis: Ein laufendes lokales Chat-UI, das Fragen aus deinen eigenen Dokumenten korrekt beantwortet.

Capstone: Dein privater, offline-fähiger Wissens-Assistent

Ergebnis: Ein laufender Offline-Assistent (Modell + UI + RAG) + Offline-Nachweis + Setup-Doc + Lizenz-/VRAM-Checkliste.

Der Rechner als Datengrenze

Lokal bleibt jedes Byte auf deiner Hardware — in der Cloud überquert es die Grenze. Sieh den Unterschied, live.

Das ist die Kernidee: die Grenze deiner Hardware. Im lokalen Modus kreisen Dokument, Frage und Antwort innerhalb der Box und prallen an der Grenze ab — nichts verlässt den Rechner, die Grenze pulsiert grün. Im Cloud-Modus löst sich das Paket, überquert die rote Grenze zum Anbieter und zurück. Unten siehst du die zweite harte Grenze: ein GGUF-Modell gleitet in den VRAM-Balken — passt es nicht, läuft er rot über. Lokale KI lebt zwischen genau diesen zwei Grenzen: Datenschutz auf der einen, Speicher auf der anderen Seite.

Lokal Cloud
  • DatenschutzDaten bleiben auf der Maschine (DSGVO/Geheimhaltung)Daten verlassen das Haus zum Anbieter
  • KostenKeine Pro-Token-Kosten, einmal HardwarePro Aufruf, kein Hardware-Invest
  • VerfügbarkeitOffline, ohne Netz nutzbarBraucht Verbindung
  • QualitätErreicht oft nicht das Frontier-NiveauSpitzenmodelle sofort verfügbar

Es gibt keinen Gewinner — Hybrid ist legitim: Sensibles lokal, das schwere Spitzenmodell aus der Cloud. Du entscheidest pro Aufgabe, wo die Grenze liegt.

Datenschutz-Use-Cases

Sensibles bleibt lokal — kein Upload

Verträge oder Personalakten lokal zusammenfassen, RAG über die interne Wissensbasis — ohne dass ein Byte den Rechner verlässt. Genau das macht lokale KI für Unternehmen mit DSGVO- und Geheimhaltungspflicht interessant.

GGUF / Quantisierung

Q4_K_M als VRAM-Kompromiss

GGUF ist das De-facto-Format für lokale Modelle: eine Datei aus Gewichten und Metadaten. Q4_K_M ist der übliche Kompromiss aus Qualität und VRAM. Faustregel: VRAM ≈ Parameter × Bits + Overhead — zu niedrige Bits sparen Speicher, kosten aber Qualität.

Lizenz prüfen

Apache 2.0 vs. Llamas eigene Lizenz

Open-Weights wie Qwen, Gemma oder Mistral stehen oft unter Apache 2.0 (kommerziell unbedenklich). Metas Llama hat eine eigene Community-Lizenz mit Sonderklauseln — vor dem kommerziellen Einsatz lesen, das ist ein realer Compliance-Unterschied.

Deinen eigenen offline-fähigen Assistenten innerhalb dieser Grenze bauen — mit Nova als Mentor, von Ollama über GGUF bis zum lokalen RAG.

Track starten

Belege & Quellen

Jede Aussage ist belegt — echte, geprüfte Quellen statt Behauptungen.

Reinschnuppern

Gratis-Vorschau

GO vs. NO-GO — ein echtes Beispiel aus dem Track.

Wie der Track läuft

Mit Nova als Mentor

Dein KI-Mentor erklärt jedes Konzept, gibt dir fertige Claude-Code-Prompts und hilft bei jeder Frage.

Geprüftes Siegel

Erklär Nova, warum und wann du KI lieber lokal laufen lässt als in der Cloud. Beschreibe, wie du aus der Open-Model-Landschaft ein passendes Modell für deine Hardware findest (Familien statt Versionen, VRAM-Faustregel, Quantisierung wie Q4_K_M), mit welchem Tool (Ollama oder LM Studio) du es startest und wie du ein Chat-UI mit RAG über eigene Dokumente davor setzt. Wäge dann lokal vs. Cloud ehrlich ab, nenne den Lizenz-Unterschied (Apache 2.0 vs. Llamas eigene Lizenz) und sag, wie du beim Capstone offline nachweist, dass keine Daten den Rechner verlassen.

In deinem Tempo

Rund 142 Minuten Kerninhalt — plus deine eigenen Projekte. Jederzeit pausierbar.

Fehler, die du vermeidest

  • Ein zu großes Modell für die Hardware wählen (z.B. 70B auf 8 GB VRAM) — es lädt nicht oder swappt. Erst VRAM gegen Parameter × Quant rechnen.
  • GPT-Klasse-Qualität von einem winzigen Modell erwarten — ein 3B ist nützlich, aber kein Frontier-Modell.
  • Lizenzen ignorieren — Qwen/Gemma/Mistral sind oft Apache 2.0, Llama hat eine eigene Lizenz mit Sonderklauseln; vor kommerziellem Einsatz prüfen.
  • Blind die niedrigste Quantisierung (Q2) wählen, um Speicher zu sparen — das kostet zu viel Qualität; Q4_K_M ist der bessere Kompromiss.
  • Feste Versions-Strings festschreiben — sie ändern sich monatlich und werden zu toten Verweisen; auf die Live-Library verweisen.

Bereit für azena local?

250 Token · 18 Lektionen · von der KI geprüft.

250 TokenTrack starten

Weitere Tracks