Spezialisierungs-Track

azena recall

Du baust ein System, das verlässlich aus EINEM echten Dokumentensatz antwortet — nicht aus dem Trainingsgedächtnis des Modells. Du verstehst, wann RAG die richtige Wahl ist (statt Fine-Tuning oder Long-Context), zerlegst Dokumente klug (Chunking + Contextual Retrieval), legst Embeddings in pgvector ab, kombinierst Hybrid Search mit Reranking für hohe Precision, groundest das Prompt gegen Halluzination und misst die Qualität messbar mit RAGAS — bevor du mit Claude Code die ganze Pipeline als ein Repo auslieferst.

19 Lektionen 208 Min 250 Token Detailseite gratis

Track starten 250 TokenChatbots, die deine Dokumente wirklich kennen.

Was du danach kannst

Beurteilen, wann RAG die richtige Wahl ist (vs Fine-Tuning vs Long-Context) und warum es Wissen vom Modell trennt
Embeddings und Chunking-Strategien verstehen und das Chunking als häufigste Fehlerquelle vermeiden
Eine Retrieval-Pipeline aus pgvector, Hybrid Search (dense + BM25) und Reranking aufbauen
Das Prompt grounden (nur aus Kontext, Zitate erzwingen) und Halluzinationen kontrollieren
RAG-Qualität messbar evaluieren mit RAGAS (faithfulness, context precision/recall, answer relevancy)
Eine vollständige Chat-mit-deinen-Dokumenten-Pipeline mit Claude Code ausliefern, inkl. Eval-Gate

Das Curriculum

19 Lektionen · Schritt für Schritt

01
Warum RAG — vs Fine-Tuning vs Long-Context
11′
RAG trennt Wissen vom Modell: das Modell denkt, deine Dokumente liefern die Fakten — zur Antwortzeit.
02
Embeddings verstehen — Text als Vektoren
11′
Embeddings machen aus Text Zahlenvektoren, deren Nähe Bedeutung misst — die Grundlage semantischer Suche.
03
Chunking-Strategien — die häufigste Fehlerquelle
12′
Wie du Dokumente zerlegst, entscheidet über alles danach. Schlechtes Chunking ist der Klassiker-Fehler im RAG.
04
Contextual Retrieval — Chunks ihren Kontext zurückgeben
12′
Stell jedem Chunk einen kurzen Doku-Kontext voran, bevor du embeddest — Anthropics Trick gegen verlorene Trefferraten.
05
Vektordatenbanken — pgvector & Supabase
11′
Du brauchst keinen exotischen Spezial-Store: deine vorhandene Postgres-DB reicht, um Embeddings zu speichern und zu suchen.
06
Retrieval + Reranking — der größte Precision-Hebel
12′
Hol grob viele Kandidaten, sortiere sie mit einem Cross-Encoder präzise nach — die wirkungsvollste Einzelstufe.
07
Hybrid Search — dense + sparse zusammen
11′
Vektoren verstehen Bedeutung, verfehlen aber exakte IDs und Fachbegriffe. BM25 fängt sie. Du brauchst beides.
08
Das Prompt grounden — gegen Halluzination
11′
Bestes Retrieval nützt nichts, wenn das Modell frei dazudichtet. Grounding zwingt die Antwort an den Kontext.
09
Evaluation & Halluzinationskontrolle mit RAGAS
13′
Nach Gefühl tunen ist Raten. RAGAS misst Retrieval und Generierung getrennt — und braucht keine Goldantworten.
10
Agentic & Advanced RAG — wenn das Modell die Suche steuert
11′
Statt einmal stur zu suchen, lässt agentic RAG das Modell planen, prüfen und bei Bedarf nochmal suchen.
11
GraphRAG — Antworten über viele Dokumente hinweg
12′
Chunk-RAG beantwortet lokale Fragen (Antwort steht an einer Stelle). Für globale Fragen, deren Antwort über VIELE Dokumente verstreut ist, baut GraphRAG vorher einen Wissensgraphen.
12
Ingestion & Loader — PDFs, HTML und OCR sauber einlesen
11′
Bevor irgendetwas embeddet wird, müssen Dokumente sauber geladen und normalisiert werden. Müll rein heißt Müll im Index.
13
Metadaten & Filter — Quelle, Datum und Berechtigung am Chunk
11′
Ein Chunk ist nicht nur Text. Häng Metadaten dran und filtere vor der Vektorsuche — so suchst du im richtigen Ausschnitt.
14
Zugriffsrechte & Multi-Tenancy — wer darf welche Dokumente sehen
12′
Sobald mehrere Nutzer oder Mandanten dieselbe Wissensbasis teilen, wird Retrieval zur Sicherheitsfrage. RLS schützt auf DB-Ebene.
15
Zitate & Quellenangaben — Antworten belegbar machen
11′
Eine RAG-Antwort ohne nachprüfbare Quelle ist nur eine schönere Halluzination. Mach jede Aussage anklickbar belegbar.
16
Query-Transformation — Rewrite, Multi-Query & HyDE
12′
Bei vagen oder schlecht formulierten Fragen scheitert das Retrieval an der Frage selbst — schreib sie vorher um, statt am Index zu schrauben.
17
Conversational RAG — Follow-ups & History auflösen
11′
In einem echten Chat hängen Fragen am Gesprächsverlauf — eine Folgefrage allein ist für die Suche oft sinnlos.
18
Sicherheit im RAG — Prompt-Injection über vergiftete Dokumente
12′
Deine Dokumente landen ungeprüft im Prompt — ein Angreifer, der ein Dokument einschleust, kann darin Anweisungen verstecken, die dein Modell befolgt.
19
Ausliefern mit Claude Code — die ganze Pipeline als ein Repo
13′
Vom Dokument zur grounded Antwort als ein laufendes Repo — mit RAGAS-Eval als Qualitäts-Gate vor dem Deploy.

Was du baust

Echte Artefakte, keine Theorie

Chunking-Strategien vergleichen und messen

Ergebnis: Zwei Chunking-Funktionen + ein kurzer Vergleich der Retrieval-Treffer für dieselben Testfragen.

Hybrid Search + Reranking in pgvector aufsetzen

Ergebnis: Eine laufende Hybrid-Search-Funktion in pgvector mit RRF-Fusion und nachgelagertem Reranking.

Ein RAGAS-Eval-Harness bauen

Ergebnis: Ein ausführbares Eval-Skript, das die vier RAGAS-Metriken für ein festes Frage-Set ausgibt.

Grounding-Prompt mit Zitaten und 'weiß-ich-nicht' testen

Ergebnis: Ein grounded System-Prompt + Testfälle, die belegen, dass das Modell bei fehlendem Kontext nicht halluziniert.

Capstone: 'Chat mit deinen Dokumenten' mit Eval-Gate ausliefern

Ergebnis: Ein laufendes 'Chat mit deinen Dokumenten'-Repo (Ingestion→pgvector→Hybrid+Rerank→grounded Antwort) + RAGAS-Eval-Gate + ein Vorher/Nachher-Qualitätsvergleich.

Die RAG-Pipeline-Reise

Wie aus einem Dokument eine belegte Antwort wird — Chunk für Chunk, live.

Das Ganze ist eine durchgehende Pipeline: Ein Dokument wird in Chunks zerlegt, die als Embeddings in einen Vektorraum wandern und nach Ähnlichkeit clustern. Eine Anfrage holt die nächsten Nachbarn (top-k), ein Reranker sortiert sie nach echter Relevanz — und die Antwort entsteht nur aus diesen Chunks, mit Zitaten zurück zur Quelle. Genau diese Kette aus Retrieval-Präzision und Grounding trennt einen belastbaren Chatbot von einem, der halluziniert.

Chunking

Satz-/semantisch statt feste Blöcke

Embeddings

Text → Vektoren, Kosinus-Nähe

Vektor-DB

pgvector + HNSW in Postgres

Retrieval + Rerank

top-50 → Cross-Encoder → top-5

Grounding

nur aus Kontext, mit Zitaten

Eval

RAGAS als Qualitäts-Gate

Retrieval-Qualität

Hybrid Search + Reranking schlägt reine Vektorsuche

Dense-Vektoren verfehlen exakte Keywords/IDs — BM25 fängt sie. Kombiniert in Postgres (tsvector/GIN + pgvector/HNSW) und mit einem Cross-Encoder-Reranker davor sinken die fehlgeschlagenen Retrievals laut Anthropics Contextual Retrieval drastisch — knapp die Hälfte allein durch Kontext, rund zwei Drittel mit Reranking.

Lost in the Middle

Warum gezieltes Retrieval statt alles ins Kontextfenster

Liu et al. (TACL 2023) zeigen: Modelle verlieren Information in der Mitte langer Kontexte. Deshalb nur die relevantesten Chunks holen — und die wichtigsten an Anfang und Ende des Prompts setzen, nicht alles ins 1M-Fenster kippen.

Evaluation

RAGAS macht Qualität messbar — vor dem Deploy

RAGAS (Es et al. EACL 2024) liefert reference-free faithfulness, context precision/recall und answer relevancy. So lässt sich getrennt messen, ob Retrieval oder Generierung versagt — als CI-Gate gegen ein festes Frage-Set, nicht nach Gefühl.

Diese Pipeline an deinem eigenen Dokumentensatz bauen — mit Nova als Mentor, von der Ingestion bis zum RAGAS-Gate.

Track starten

Belege & Quellen

Jede Aussage ist belegt — echte, geprüfte Quellen statt Behauptungen.

Lewis et al. · Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (NeurIPS 2020)Liu et al. · Lost in the Middle (Stanford, TACL 2023)OpenAI · Vector embeddings (API-Doku) / New embedding models Anthropic · Introducing Contextual Retrieval Supabase · pgvector: Embeddings and vector similarity (Doku)Anthropic · Introducing Contextual Retrieval / Cookbook Supabase · Hybrid search (Doku)Es, James et al. · Ragas: Automated Evaluation of Retrieval Augmented Generation (EACL 2024)LangChain · Build a RAG agent (Doku)Edge et al. (Microsoft) · „From Local to Global: A Graph RAG Approach“ (2024)Microsoft · „GraphRAG“ (Open Source / Docs)Unstructured · Dokument-Vorverarbeitung für LLMs / RAG (Doku)Supabase · Row Level Security (Doku)Anthropic · Citations (Claude-API-Doku)Gao et al. · Precise Zero-Shot Dense Retrieval without Relevance Labels (HyDE, 2022)LangChain · Conversational RAG / Add chat history (Doku)

Reinschnuppern

Gratis-Vorschau

GO vs. NO-GO — ein echtes Beispiel aus dem Track.

Wie der Track läuft

Mit Nova als Mentor

Dein KI-Mentor erklärt jedes Konzept, gibt dir fertige Claude-Code-Prompts und hilft bei jeder Frage.

Geprüftes Siegel

Beschreib Nova, wie du einen verlässlichen Wissens-Chatbot über einen echten Dokumentensatz baust: warum RAG (statt Fine-Tuning/Long-Context, inkl. lost-in-the-middle), wie du chunkst und mit Contextual Retrieval anreicherst, wie deine Retrieval-Pipeline aus pgvector, Hybrid Search (dense + BM25, RRF) und Reranking aussieht, wie du das Prompt groundest (nur aus Kontext, Zitate, kluge Anordnung), wie du mit RAGAS Retrieval vs Generierung getrennt misst und ein Eval-Gate vor den Deploy hängst — und wie du das ganze mit Claude Code als ein Repo mit messbarem Vorher/Nachher-Sprung auslieferst.

In deinem Tempo

Rund 208 Minuten Kerninhalt — plus deine eigenen Projekte. Jederzeit pausierbar.

Fehler, die du vermeidest

Naives Chunking ohne Strategie — feste Token-Blöcke (z.B. 500) zerreißen den Kontext mitten im Gedanken.
Keine Evaluation: nach Gefühl tunen statt mit RAGAS messen — man weiß nie, ob Retrieval oder Generierung das Problem ist.
Retrieval-Qualität ignorieren / nur Vektorsuche — verfehlt exakte Keywords/IDs ohne Hybrid Search und Reranking.
Das Prompt nicht grounden — das Modell antwortet 'frei' und halluziniert trotz korrektem Retrieval; relevante Chunks landen in der Mitte.
Long-Context als Allheilmittel — alles ins 1M-Fenster kippen: teuer, redundant, und Positions-Degradation (lost in the middle).

Bereit für azena recall?

250 Token · 19 Lektionen · von der KI geprüft.

250 TokenTrack starten

azena recall

Was du danach kannst

Das Curriculum

Warum RAG — vs Fine-Tuning vs Long-Context

Embeddings verstehen — Text als Vektoren

Chunking-Strategien — die häufigste Fehlerquelle

Contextual Retrieval — Chunks ihren Kontext zurückgeben

Vektordatenbanken — pgvector & Supabase

Retrieval + Reranking — der größte Precision-Hebel

Hybrid Search — dense + sparse zusammen

Das Prompt grounden — gegen Halluzination

Evaluation & Halluzinationskontrolle mit RAGAS

Agentic & Advanced RAG — wenn das Modell die Suche steuert

GraphRAG — Antworten über viele Dokumente hinweg

Ingestion & Loader — PDFs, HTML und OCR sauber einlesen

Metadaten & Filter — Quelle, Datum und Berechtigung am Chunk

Zugriffsrechte & Multi-Tenancy — wer darf welche Dokumente sehen

Zitate & Quellenangaben — Antworten belegbar machen

Query-Transformation — Rewrite, Multi-Query & HyDE

Conversational RAG — Follow-ups & History auflösen

Sicherheit im RAG — Prompt-Injection über vergiftete Dokumente

Ausliefern mit Claude Code — die ganze Pipeline als ein Repo