Zum Inhalt springen
Alle Tracks
Spezialisierungs-Track

azena recall

Du baust ein System, das verlässlich aus EINEM echten Dokumentensatz antwortet — nicht aus dem Trainingsgedächtnis des Modells. Du verstehst, wann RAG die richtige Wahl ist (statt Fine-Tuning oder Long-Context), zerlegst Dokumente klug (Chunking + Contextual Retrieval), legst Embeddings in pgvector ab, kombinierst Hybrid Search mit Reranking für hohe Precision, groundest das Prompt gegen Halluzination und misst die Qualität messbar mit RAGAS — bevor du mit Claude Code die ganze Pipeline als ein Repo auslieferst.

19 Lektionen 208 Min 250 Token Detailseite gratis
Track starten 250 TokenChatbots, die deine Dokumente wirklich kennen.

Was du danach kannst

  • Beurteilen, wann RAG die richtige Wahl ist (vs Fine-Tuning vs Long-Context) und warum es Wissen vom Modell trennt
  • Embeddings und Chunking-Strategien verstehen und das Chunking als häufigste Fehlerquelle vermeiden
  • Eine Retrieval-Pipeline aus pgvector, Hybrid Search (dense + BM25) und Reranking aufbauen
  • Das Prompt grounden (nur aus Kontext, Zitate erzwingen) und Halluzinationen kontrollieren
  • RAG-Qualität messbar evaluieren mit RAGAS (faithfulness, context precision/recall, answer relevancy)
  • Eine vollständige Chat-mit-deinen-Dokumenten-Pipeline mit Claude Code ausliefern, inkl. Eval-Gate

Das Curriculum

19 Lektionen · Schritt für Schritt

  1. 01

    Warum RAG — vs Fine-Tuning vs Long-Context

    11

    RAG trennt Wissen vom Modell: das Modell denkt, deine Dokumente liefern die Fakten — zur Antwortzeit.

  2. 02

    Embeddings verstehen — Text als Vektoren

    11

    Embeddings machen aus Text Zahlenvektoren, deren Nähe Bedeutung misst — die Grundlage semantischer Suche.

  3. 03

    Chunking-Strategien — die häufigste Fehlerquelle

    12

    Wie du Dokumente zerlegst, entscheidet über alles danach. Schlechtes Chunking ist der Klassiker-Fehler im RAG.

  4. 04

    Contextual Retrieval — Chunks ihren Kontext zurückgeben

    12

    Stell jedem Chunk einen kurzen Doku-Kontext voran, bevor du embeddest — Anthropics Trick gegen verlorene Trefferraten.

  5. 05

    Vektordatenbanken — pgvector & Supabase

    11

    Du brauchst keinen exotischen Spezial-Store: deine vorhandene Postgres-DB reicht, um Embeddings zu speichern und zu suchen.

  6. 06

    Retrieval + Reranking — der größte Precision-Hebel

    12

    Hol grob viele Kandidaten, sortiere sie mit einem Cross-Encoder präzise nach — die wirkungsvollste Einzelstufe.

  7. 07

    Hybrid Search — dense + sparse zusammen

    11

    Vektoren verstehen Bedeutung, verfehlen aber exakte IDs und Fachbegriffe. BM25 fängt sie. Du brauchst beides.

  8. 08

    Das Prompt grounden — gegen Halluzination

    11

    Bestes Retrieval nützt nichts, wenn das Modell frei dazudichtet. Grounding zwingt die Antwort an den Kontext.

  9. 09

    Evaluation & Halluzinationskontrolle mit RAGAS

    13

    Nach Gefühl tunen ist Raten. RAGAS misst Retrieval und Generierung getrennt — und braucht keine Goldantworten.

  10. 10

    Agentic & Advanced RAG — wenn das Modell die Suche steuert

    11

    Statt einmal stur zu suchen, lässt agentic RAG das Modell planen, prüfen und bei Bedarf nochmal suchen.

  11. 11

    GraphRAG — Antworten über viele Dokumente hinweg

    12

    Chunk-RAG beantwortet lokale Fragen (Antwort steht an einer Stelle). Für globale Fragen, deren Antwort über VIELE Dokumente verstreut ist, baut GraphRAG vorher einen Wissensgraphen.

  12. 12

    Ingestion & Loader — PDFs, HTML und OCR sauber einlesen

    11

    Bevor irgendetwas embeddet wird, müssen Dokumente sauber geladen und normalisiert werden. Müll rein heißt Müll im Index.

  13. 13

    Metadaten & Filter — Quelle, Datum und Berechtigung am Chunk

    11

    Ein Chunk ist nicht nur Text. Häng Metadaten dran und filtere vor der Vektorsuche — so suchst du im richtigen Ausschnitt.

  14. 14

    Zugriffsrechte & Multi-Tenancy — wer darf welche Dokumente sehen

    12

    Sobald mehrere Nutzer oder Mandanten dieselbe Wissensbasis teilen, wird Retrieval zur Sicherheitsfrage. RLS schützt auf DB-Ebene.

  15. 15

    Zitate & Quellenangaben — Antworten belegbar machen

    11

    Eine RAG-Antwort ohne nachprüfbare Quelle ist nur eine schönere Halluzination. Mach jede Aussage anklickbar belegbar.

  16. 16

    Query-Transformation — Rewrite, Multi-Query & HyDE

    12

    Bei vagen oder schlecht formulierten Fragen scheitert das Retrieval an der Frage selbst — schreib sie vorher um, statt am Index zu schrauben.

  17. 17

    Conversational RAG — Follow-ups & History auflösen

    11

    In einem echten Chat hängen Fragen am Gesprächsverlauf — eine Folgefrage allein ist für die Suche oft sinnlos.

  18. 18

    Sicherheit im RAG — Prompt-Injection über vergiftete Dokumente

    12

    Deine Dokumente landen ungeprüft im Prompt — ein Angreifer, der ein Dokument einschleust, kann darin Anweisungen verstecken, die dein Modell befolgt.

  19. 19

    Ausliefern mit Claude Code — die ganze Pipeline als ein Repo

    13

    Vom Dokument zur grounded Antwort als ein laufendes Repo — mit RAGAS-Eval als Qualitäts-Gate vor dem Deploy.

Was du baust

Echte Artefakte, keine Theorie

Chunking-Strategien vergleichen und messen

Ergebnis: Zwei Chunking-Funktionen + ein kurzer Vergleich der Retrieval-Treffer für dieselben Testfragen.

Hybrid Search + Reranking in pgvector aufsetzen

Ergebnis: Eine laufende Hybrid-Search-Funktion in pgvector mit RRF-Fusion und nachgelagertem Reranking.

Ein RAGAS-Eval-Harness bauen

Ergebnis: Ein ausführbares Eval-Skript, das die vier RAGAS-Metriken für ein festes Frage-Set ausgibt.

Grounding-Prompt mit Zitaten und 'weiß-ich-nicht' testen

Ergebnis: Ein grounded System-Prompt + Testfälle, die belegen, dass das Modell bei fehlendem Kontext nicht halluziniert.

Capstone: 'Chat mit deinen Dokumenten' mit Eval-Gate ausliefern

Ergebnis: Ein laufendes 'Chat mit deinen Dokumenten'-Repo (Ingestion→pgvector→Hybrid+Rerank→grounded Antwort) + RAGAS-Eval-Gate + ein Vorher/Nachher-Qualitätsvergleich.

Die RAG-Pipeline-Reise

Wie aus einem Dokument eine belegte Antwort wird — Chunk für Chunk, live.

Das Ganze ist eine durchgehende Pipeline: Ein Dokument wird in Chunks zerlegt, die als Embeddings in einen Vektorraum wandern und nach Ähnlichkeit clustern. Eine Anfrage holt die nächsten Nachbarn (top-k), ein Reranker sortiert sie nach echter Relevanz — und die Antwort entsteht nur aus diesen Chunks, mit Zitaten zurück zur Quelle. Genau diese Kette aus Retrieval-Präzision und Grounding trennt einen belastbaren Chatbot von einem, der halluziniert.

01

Chunking

Satz-/semantisch statt feste Blöcke

02

Embeddings

Text → Vektoren, Kosinus-Nähe

03

Vektor-DB

pgvector + HNSW in Postgres

04

Retrieval + Rerank

top-50 → Cross-Encoder → top-5

05

Grounding

nur aus Kontext, mit Zitaten

06

Eval

RAGAS als Qualitäts-Gate

Retrieval-Qualität

Hybrid Search + Reranking schlägt reine Vektorsuche

Dense-Vektoren verfehlen exakte Keywords/IDs — BM25 fängt sie. Kombiniert in Postgres (tsvector/GIN + pgvector/HNSW) und mit einem Cross-Encoder-Reranker davor sinken die fehlgeschlagenen Retrievals laut Anthropics Contextual Retrieval drastisch — knapp die Hälfte allein durch Kontext, rund zwei Drittel mit Reranking.

Lost in the Middle

Warum gezieltes Retrieval statt alles ins Kontextfenster

Liu et al. (TACL 2023) zeigen: Modelle verlieren Information in der Mitte langer Kontexte. Deshalb nur die relevantesten Chunks holen — und die wichtigsten an Anfang und Ende des Prompts setzen, nicht alles ins 1M-Fenster kippen.

Evaluation

RAGAS macht Qualität messbar — vor dem Deploy

RAGAS (Es et al. EACL 2024) liefert reference-free faithfulness, context precision/recall und answer relevancy. So lässt sich getrennt messen, ob Retrieval oder Generierung versagt — als CI-Gate gegen ein festes Frage-Set, nicht nach Gefühl.

Diese Pipeline an deinem eigenen Dokumentensatz bauen — mit Nova als Mentor, von der Ingestion bis zum RAGAS-Gate.

Track starten

Belege & Quellen

Jede Aussage ist belegt — echte, geprüfte Quellen statt Behauptungen.

Reinschnuppern

Gratis-Vorschau

GO vs. NO-GO — ein echtes Beispiel aus dem Track.

Wie der Track läuft

Mit Nova als Mentor

Dein KI-Mentor erklärt jedes Konzept, gibt dir fertige Claude-Code-Prompts und hilft bei jeder Frage.

Geprüftes Siegel

Beschreib Nova, wie du einen verlässlichen Wissens-Chatbot über einen echten Dokumentensatz baust: warum RAG (statt Fine-Tuning/Long-Context, inkl. lost-in-the-middle), wie du chunkst und mit Contextual Retrieval anreicherst, wie deine Retrieval-Pipeline aus pgvector, Hybrid Search (dense + BM25, RRF) und Reranking aussieht, wie du das Prompt groundest (nur aus Kontext, Zitate, kluge Anordnung), wie du mit RAGAS Retrieval vs Generierung getrennt misst und ein Eval-Gate vor den Deploy hängst — und wie du das ganze mit Claude Code als ein Repo mit messbarem Vorher/Nachher-Sprung auslieferst.

In deinem Tempo

Rund 208 Minuten Kerninhalt — plus deine eigenen Projekte. Jederzeit pausierbar.

Fehler, die du vermeidest

  • Naives Chunking ohne Strategie — feste Token-Blöcke (z.B. 500) zerreißen den Kontext mitten im Gedanken.
  • Keine Evaluation: nach Gefühl tunen statt mit RAGAS messen — man weiß nie, ob Retrieval oder Generierung das Problem ist.
  • Retrieval-Qualität ignorieren / nur Vektorsuche — verfehlt exakte Keywords/IDs ohne Hybrid Search und Reranking.
  • Das Prompt nicht grounden — das Modell antwortet 'frei' und halluziniert trotz korrektem Retrieval; relevante Chunks landen in der Mitte.
  • Long-Context als Allheilmittel — alles ins 1M-Fenster kippen: teuer, redundant, und Positions-Degradation (lost in the middle).

Bereit für azena recall?

250 Token · 19 Lektionen · von der KI geprüft.

250 TokenTrack starten

Weitere Tracks