azena recall
Du baust ein System, das verlässlich aus EINEM echten Dokumentensatz antwortet — nicht aus dem Trainingsgedächtnis des Modells. Du verstehst, wann RAG die richtige Wahl ist (statt Fine-Tuning oder Long-Context), zerlegst Dokumente klug (Chunking + Contextual Retrieval), legst Embeddings in pgvector ab, kombinierst Hybrid Search mit Reranking für hohe Precision, groundest das Prompt gegen Halluzination und misst die Qualität messbar mit RAGAS — bevor du mit Claude Code die ganze Pipeline als ein Repo auslieferst.
Was du danach kannst
- Beurteilen, wann RAG die richtige Wahl ist (vs Fine-Tuning vs Long-Context) und warum es Wissen vom Modell trennt
- Embeddings und Chunking-Strategien verstehen und das Chunking als häufigste Fehlerquelle vermeiden
- Eine Retrieval-Pipeline aus pgvector, Hybrid Search (dense + BM25) und Reranking aufbauen
- Das Prompt grounden (nur aus Kontext, Zitate erzwingen) und Halluzinationen kontrollieren
- RAG-Qualität messbar evaluieren mit RAGAS (faithfulness, context precision/recall, answer relevancy)
- Eine vollständige Chat-mit-deinen-Dokumenten-Pipeline mit Claude Code ausliefern, inkl. Eval-Gate
Das Curriculum
19 Lektionen · Schritt für Schritt
- 01
Warum RAG — vs Fine-Tuning vs Long-Context
11′RAG trennt Wissen vom Modell: das Modell denkt, deine Dokumente liefern die Fakten — zur Antwortzeit.
- 02
Embeddings verstehen — Text als Vektoren
11′Embeddings machen aus Text Zahlenvektoren, deren Nähe Bedeutung misst — die Grundlage semantischer Suche.
- 03
Chunking-Strategien — die häufigste Fehlerquelle
12′Wie du Dokumente zerlegst, entscheidet über alles danach. Schlechtes Chunking ist der Klassiker-Fehler im RAG.
- 04
Contextual Retrieval — Chunks ihren Kontext zurückgeben
12′Stell jedem Chunk einen kurzen Doku-Kontext voran, bevor du embeddest — Anthropics Trick gegen verlorene Trefferraten.
- 05
Vektordatenbanken — pgvector & Supabase
11′Du brauchst keinen exotischen Spezial-Store: deine vorhandene Postgres-DB reicht, um Embeddings zu speichern und zu suchen.
- 06
Retrieval + Reranking — der größte Precision-Hebel
12′Hol grob viele Kandidaten, sortiere sie mit einem Cross-Encoder präzise nach — die wirkungsvollste Einzelstufe.
- 07
Hybrid Search — dense + sparse zusammen
11′Vektoren verstehen Bedeutung, verfehlen aber exakte IDs und Fachbegriffe. BM25 fängt sie. Du brauchst beides.
- 08
Das Prompt grounden — gegen Halluzination
11′Bestes Retrieval nützt nichts, wenn das Modell frei dazudichtet. Grounding zwingt die Antwort an den Kontext.
- 09
Evaluation & Halluzinationskontrolle mit RAGAS
13′Nach Gefühl tunen ist Raten. RAGAS misst Retrieval und Generierung getrennt — und braucht keine Goldantworten.
- 10
Agentic & Advanced RAG — wenn das Modell die Suche steuert
11′Statt einmal stur zu suchen, lässt agentic RAG das Modell planen, prüfen und bei Bedarf nochmal suchen.
- 11
GraphRAG — Antworten über viele Dokumente hinweg
12′Chunk-RAG beantwortet lokale Fragen (Antwort steht an einer Stelle). Für globale Fragen, deren Antwort über VIELE Dokumente verstreut ist, baut GraphRAG vorher einen Wissensgraphen.
- 12
Ingestion & Loader — PDFs, HTML und OCR sauber einlesen
11′Bevor irgendetwas embeddet wird, müssen Dokumente sauber geladen und normalisiert werden. Müll rein heißt Müll im Index.
- 13
Metadaten & Filter — Quelle, Datum und Berechtigung am Chunk
11′Ein Chunk ist nicht nur Text. Häng Metadaten dran und filtere vor der Vektorsuche — so suchst du im richtigen Ausschnitt.
- 14
Zugriffsrechte & Multi-Tenancy — wer darf welche Dokumente sehen
12′Sobald mehrere Nutzer oder Mandanten dieselbe Wissensbasis teilen, wird Retrieval zur Sicherheitsfrage. RLS schützt auf DB-Ebene.
- 15
Zitate & Quellenangaben — Antworten belegbar machen
11′Eine RAG-Antwort ohne nachprüfbare Quelle ist nur eine schönere Halluzination. Mach jede Aussage anklickbar belegbar.
- 16
Query-Transformation — Rewrite, Multi-Query & HyDE
12′Bei vagen oder schlecht formulierten Fragen scheitert das Retrieval an der Frage selbst — schreib sie vorher um, statt am Index zu schrauben.
- 17
Conversational RAG — Follow-ups & History auflösen
11′In einem echten Chat hängen Fragen am Gesprächsverlauf — eine Folgefrage allein ist für die Suche oft sinnlos.
- 18
Sicherheit im RAG — Prompt-Injection über vergiftete Dokumente
12′Deine Dokumente landen ungeprüft im Prompt — ein Angreifer, der ein Dokument einschleust, kann darin Anweisungen verstecken, die dein Modell befolgt.
- 19
Ausliefern mit Claude Code — die ganze Pipeline als ein Repo
13′Vom Dokument zur grounded Antwort als ein laufendes Repo — mit RAGAS-Eval als Qualitäts-Gate vor dem Deploy.
Was du baust
Echte Artefakte, keine Theorie
Chunking-Strategien vergleichen und messen
Ergebnis: Zwei Chunking-Funktionen + ein kurzer Vergleich der Retrieval-Treffer für dieselben Testfragen.
Hybrid Search + Reranking in pgvector aufsetzen
Ergebnis: Eine laufende Hybrid-Search-Funktion in pgvector mit RRF-Fusion und nachgelagertem Reranking.
Ein RAGAS-Eval-Harness bauen
Ergebnis: Ein ausführbares Eval-Skript, das die vier RAGAS-Metriken für ein festes Frage-Set ausgibt.
Grounding-Prompt mit Zitaten und 'weiß-ich-nicht' testen
Ergebnis: Ein grounded System-Prompt + Testfälle, die belegen, dass das Modell bei fehlendem Kontext nicht halluziniert.
Capstone: 'Chat mit deinen Dokumenten' mit Eval-Gate ausliefern
Ergebnis: Ein laufendes 'Chat mit deinen Dokumenten'-Repo (Ingestion→pgvector→Hybrid+Rerank→grounded Antwort) + RAGAS-Eval-Gate + ein Vorher/Nachher-Qualitätsvergleich.
Die RAG-Pipeline-Reise
Wie aus einem Dokument eine belegte Antwort wird — Chunk für Chunk, live.
Das Ganze ist eine durchgehende Pipeline: Ein Dokument wird in Chunks zerlegt, die als Embeddings in einen Vektorraum wandern und nach Ähnlichkeit clustern. Eine Anfrage holt die nächsten Nachbarn (top-k), ein Reranker sortiert sie nach echter Relevanz — und die Antwort entsteht nur aus diesen Chunks, mit Zitaten zurück zur Quelle. Genau diese Kette aus Retrieval-Präzision und Grounding trennt einen belastbaren Chatbot von einem, der halluziniert.
Chunking
Satz-/semantisch statt feste Blöcke
Embeddings
Text → Vektoren, Kosinus-Nähe
Vektor-DB
pgvector + HNSW in Postgres
Retrieval + Rerank
top-50 → Cross-Encoder → top-5
Grounding
nur aus Kontext, mit Zitaten
Eval
RAGAS als Qualitäts-Gate
Hybrid Search + Reranking schlägt reine Vektorsuche
Dense-Vektoren verfehlen exakte Keywords/IDs — BM25 fängt sie. Kombiniert in Postgres (tsvector/GIN + pgvector/HNSW) und mit einem Cross-Encoder-Reranker davor sinken die fehlgeschlagenen Retrievals laut Anthropics Contextual Retrieval drastisch — knapp die Hälfte allein durch Kontext, rund zwei Drittel mit Reranking.
Warum gezieltes Retrieval statt alles ins Kontextfenster
Liu et al. (TACL 2023) zeigen: Modelle verlieren Information in der Mitte langer Kontexte. Deshalb nur die relevantesten Chunks holen — und die wichtigsten an Anfang und Ende des Prompts setzen, nicht alles ins 1M-Fenster kippen.
RAGAS macht Qualität messbar — vor dem Deploy
RAGAS (Es et al. EACL 2024) liefert reference-free faithfulness, context precision/recall und answer relevancy. So lässt sich getrennt messen, ob Retrieval oder Generierung versagt — als CI-Gate gegen ein festes Frage-Set, nicht nach Gefühl.
Diese Pipeline an deinem eigenen Dokumentensatz bauen — mit Nova als Mentor, von der Ingestion bis zum RAGAS-Gate.
Track startenBelege & Quellen
Jede Aussage ist belegt — echte, geprüfte Quellen statt Behauptungen.
Reinschnuppern
Gratis-VorschauGO vs. NO-GO — ein echtes Beispiel aus dem Track.
Wie der Track läuft
Mit Nova als Mentor
Dein KI-Mentor erklärt jedes Konzept, gibt dir fertige Claude-Code-Prompts und hilft bei jeder Frage.
Geprüftes Siegel
Beschreib Nova, wie du einen verlässlichen Wissens-Chatbot über einen echten Dokumentensatz baust: warum RAG (statt Fine-Tuning/Long-Context, inkl. lost-in-the-middle), wie du chunkst und mit Contextual Retrieval anreicherst, wie deine Retrieval-Pipeline aus pgvector, Hybrid Search (dense + BM25, RRF) und Reranking aussieht, wie du das Prompt groundest (nur aus Kontext, Zitate, kluge Anordnung), wie du mit RAGAS Retrieval vs Generierung getrennt misst und ein Eval-Gate vor den Deploy hängst — und wie du das ganze mit Claude Code als ein Repo mit messbarem Vorher/Nachher-Sprung auslieferst.
In deinem Tempo
Rund 208 Minuten Kerninhalt — plus deine eigenen Projekte. Jederzeit pausierbar.
Fehler, die du vermeidest
- Naives Chunking ohne Strategie — feste Token-Blöcke (z.B. 500) zerreißen den Kontext mitten im Gedanken.
- Keine Evaluation: nach Gefühl tunen statt mit RAGAS messen — man weiß nie, ob Retrieval oder Generierung das Problem ist.
- Retrieval-Qualität ignorieren / nur Vektorsuche — verfehlt exakte Keywords/IDs ohne Hybrid Search und Reranking.
- Das Prompt nicht grounden — das Modell antwortet 'frei' und halluziniert trotz korrektem Retrieval; relevante Chunks landen in der Mitte.
- Long-Context als Allheilmittel — alles ins 1M-Fenster kippen: teuer, redundant, und Positions-Degradation (lost in the middle).
Bereit für azena recall?
250 Token · 19 Lektionen · von der KI geprüft.