Spezialisierungs-Track

azena voice

Du machst aus Text gesprochene Sprache, baust deine eigene Marken-Stimme nach, übersetzt Audio in viele Sprachen ohne die Stimme zu verlieren, verschriftlichst Aufnahmen und vertonst Inhalte mit Musik — alles ohne eine Zeile Code. Und du weißt, wann du eine Einwilligung brauchst und wie du KI-Audio sauber kennzeichnest, damit deine Arbeit professionell und rechtssicher bleibt.

18 Lektionen 138 Min 250 Token Detailseite gratis

Track starten 250 TokenStimme, Vertonung und Übersetzung per KI.

Was du danach kannst

Aus Text natürliche Sprache erzeugen (Text-to-Speech) und die Ausgabe steuern
Emotion und Betonung gezielt lenken (Audio Tags, Steuer-Anweisungen)
Eine eigene Stimme verantwortungsvoll klonen und die Einwilligungsregeln verstehen
Audio mehrsprachig übersetzen (Dubbing) und Aufnahmen verschriftlichen
Podcasts, Jingles und Hintergrundmusik mit KI produzieren
KI-Audio korrekt kennzeichnen und die Rechtslage (EU AI Act, Anbieterregeln) beachten

Das Curriculum

18 Lektionen · Schritt für Schritt

01
Was KI-Stimme & Audio heute wirklich kann
9′
Erzeugen, klonen, übersetzen, sprechen — der Überblick, bevor du loslegst.
02
Deine erste KI-Stimme: Text-to-Speech Grundlagen
9′
Text rein, Stimme raus — Stimme, Sprache und Tempo im Browser wählen.
03
Emotion steuern: ausdrucksstarke Stimmen
10′
Flüstern, lachen, betonen — wie du Gefühl in eine KI-Stimme bringst.
04
Gut aufnehmen — Mikrofon, Raum & Pegel
10′
Klonen, Dubbing und Schnitt sind nur so gut wie die Aufnahme. Drei Hebel entscheiden über sauberen Ton — und für keinen brauchst du teure Technik, nur ein bisschen Wissen.
05
Voice Cloning: deine eigene Stimme nachbauen
10′
Aus wenigen Aufnahmen entsteht eine Stimme, die nach dir klingt.
06
Einwilligung & Stimmrechte — Pflicht vor jedem Klonen
9′
Eine fremde Stimme zu klonen ohne Erlaubnis ist tabu — so machst du es richtig.
07
Mehrsprachiges Dubbing — eine Stimme, viele Sprachen
9′
Audio in andere Sprachen übersetzen, ohne die Original-Stimme zu verlieren.
08
Audio aufnehmen & verschriftlichen (Speech-to-Text)
8′
Der umgekehrte Weg: Aus gesprochenem Wort wird sauberer Text.
09
Podcast- & Audioproduktion mit KI
9′
Mehrere Stimmen, ein klares Skript — eine ganze Folge ohne Mikrofon.
10
Hörbücher & Langform — Konsistenz über Stunden
10′
Ein einzelner Satz gelingt leicht. Ein Hörbuch dauert Stunden — und über diese Stunden muss alles zusammenpassen. Die schleichende Inkonsistenz ist die eigentliche Gefahr.
11
Musik & Sound: Jingles & Hintergrundmusik
9′
Ein kurzer Beschreibungssatz wird zu einem fertigen Musikstück.
12
Einen Sprach-Assistenten ohne Code bauen
10′
Eine Stimme, die zuhört, denkt und antwortet — zusammengeklickt, nicht programmiert.
13
Rechte, Kennzeichnung & kommerzielle Nutzung
9′
Was du verkaufen darfst, was dir gehört, und was du offenlegen musst.
14
Aussprache & Feinsteuerung mit SSML
10′
Betonung, Pausen, Zahlen und Namen genau so sprechen lassen, wie du willst.
15
Audio bereinigen & schneiden
9′
Rauschen entfernen, Versprecher kürzen, sauberer Schnitt — die Nachbearbeitung.
16
Lautheit & Normalisierung — überall gleich laut klingen
10′
Warum dein Audio neben anderen leise wirkt, hat selten mit dem Inhalt zu tun — sondern mit der Lautheit. Plattformen normalisieren automatisch, also zielst du bewusst auf ihren Wert.
17
Eine Audio-Marke aufbauen
9′
Eine wiedererkennbare Stimme und ein eigener Klang für ein Unternehmen.
18
Ethik, Deepfakes & Gesetzeslage
9′
Die Regeln, die KI-Audio von Werkzeug zu Waffe oder umgekehrt machen.

Was du baust

Echte Artefakte, keine Theorie

Deine erste KI-Stimme erzeugen

Ergebnis: Dein optimierter Sprechtext + die gewählte Stimme + ein Satz, was du im Vergleich der Stimmen bemerkt hast.

Eine Aufnahme verschriftlichen & zusammenfassen

Ergebnis: Dein Protokoll + ein Satz, welche Eigennamen/Fachbegriffe du in der Verschriftlichung korrigiert hast.

Eine Einwilligungs-Notiz schreiben

Ergebnis: Deine Einwilligungs-Vorlage (wer/wofür/wo/Zustimmung) als wiederverwendbarer Baustein.

Capstone: Zweisprachiges Erklärvideo mit gekennzeichnetem KI-Audio

Ergebnis: Beide Tonspuren (DE + EN) + die KI-Kennzeichnung + eine kurze Notiz zu Einwilligung und Musik-Lizenz.

Die sprechende Welle

Vom Text zur Stimme zur Sprachversion — wie aus einem Skript hörbares, gekennzeichnetes KI-Audio wird.

TextTTSDubbingMusik

KI-Audio · gekennzeichnet

Eine Tonspur durchläuft dieselbe Kette: aus Text wird per Text-to-Speech eine ausdrucksstarke Stimme, die sich in über 90 Sprachen übersetzen lässt, ohne ihren Klang zu verlieren — darunter legt sich dezente Musik. Am Ende steht kein Trick, sondern eine Pflicht: die Kennzeichnung als KI-Audio.

01
Text
Klares, kurzes Skript als Ausgangsmaterial.
02
Stimme
Text-to-Speech mit Audio-Tags wie [whispers]/[laughs].
03
Übersetzung
Dubbing in 90+ Sprachen — die Stimme bleibt.
04
Musik
Dezente KI-Hintergrundmusik legt sich darunter.
05
Kennzeichnung
Hör- und sichtbare KI-Audio-Kennzeichnung.

Was die Werkzeuge heute können — und was Pflicht ist

ElevenLabs v3

Ausdruck per Audio-Tags — ohne Code

Inline-Tags wie [whispers] oder [laughs] steuern Emotion direkt im Text, in 70+ Sprachen. OpenAI ergänzt steuerbare Stimmen per instructions-Parameter.

Dubbing · 90+ Sprachen

Eine Stimme, viele Sprachen

Automatisches Dubbing überträgt deine Tonspur in über 90 Sprachen und bewahrt dabei Identität, Tonhöhe und Tonfall — Hintergrund und Musik bleiben erhalten.

Einwilligung · Art. 50

Erst Zustimmung, dann Kennzeichnung

Fremde Stimmen nur mit nachgewiesener Einwilligung klonen. Der EU AI Act (Art. 50, ab 2.8.2026) verlangt, KI-generierte Audio offenzulegen — bei Anrufen gilt zudem das US-Einwilligungsgebot.

Die ganze Audio-Kette selbst bauen — mit Nova als Mentor, vom Skript bis zur Kennzeichnung.

Track starten

Belege & Quellen

Jede Aussage ist belegt — echte, geprüfte Quellen statt Behauptungen.

ElevenLabs · Eleven v3: Most Expressive AI TTS OpenAI · Text to speech (API-Dokumentation)ElevenLabs · What are Eleven v3 Audio Tags RØDE · „How to Position a Microphone and Pop Filter“Sound on Sound · „How much headroom should I leave?“ElevenLabs · Professional Voice Cloning (Dokumentation)ElevenLabs · Dubbing (Dokumentation)ElevenLabs · „Pronunciation dictionaries“ (Docs)ElevenLabs · „Audiobooks“ (Docs)ACX (Audible) · „Audio Submission Requirements“Suno · v5.5 ElevenLabs · Conversational AI 2.0 OpenAI · Realtime and audio (API-Dokumentation)Suno · What rights do I have with a paid subscription?Wikipedia · „EBU R 128“ (Messung nach ITU-R BS.1770)Spotify · „Loudness normalization“ (Artists)

Reinschnuppern

Gratis-Vorschau

GO vs. NO-GO — ein echtes Beispiel aus dem Track.

Wie der Track läuft

Mit Nova als Mentor

Dein KI-Mentor erklärt jedes Konzept, gibt dir fertige Claude-Code-Prompts und hilft bei jeder Frage.

Geprüftes Siegel

Plane mit Nova ein kurzes zweisprachiges Audio-Stück für einen echten Zweck. Erklär, mit welchem Werkzeug du die deutsche Stimme erzeugst und warum (Ausdruck vs. Latenz), wie du es ins Englische dubbst, ob du eine Einwilligung brauchst und wie du sie einholst, und wie du das fertige Audio nach Art. 50 kennzeichnest. Sag außerdem, was du kommerziell nutzen darfst und was dir urheberrechtlich gehört.

In deinem Tempo

Rund 138 Minuten Kerninhalt — plus deine eigenen Projekte. Jederzeit pausierbar.

Fehler, die du vermeidest

Fremde Stimmen ohne Einwilligung klonen — das ist tabu und gegen die Anbieterregeln.
Die KI-Kennzeichnung weglassen, obwohl Artikel 50 und Anbieter-Richtlinien sie verlangen.
Für Echtzeit (Live-Telefon) ein ausdrucksstarkes, aber langsames Modell wählen — die Latenz macht es unbrauchbar.
Annehmen, KI-Musik gehöre einem urheberrechtlich vollständig — kommerziell nutzbar ist nicht eintragbares Urheberrecht.
Mit schlechtem Skript oder verrauschtem Ausgangsmaterial arbeiten — das ruiniert jedes Klon-, Dubbing- oder Vertonungsergebnis.

Bereit für azena voice?

250 Token · 18 Lektionen · von der KI geprüft.

250 TokenTrack starten

azena voice

Was du danach kannst

Das Curriculum

Was KI-Stimme & Audio heute wirklich kann

Deine erste KI-Stimme: Text-to-Speech Grundlagen

Emotion steuern: ausdrucksstarke Stimmen

Gut aufnehmen — Mikrofon, Raum & Pegel

Voice Cloning: deine eigene Stimme nachbauen

Einwilligung & Stimmrechte — Pflicht vor jedem Klonen

Mehrsprachiges Dubbing — eine Stimme, viele Sprachen

Audio aufnehmen & verschriftlichen (Speech-to-Text)

Podcast- & Audioproduktion mit KI

Hörbücher & Langform — Konsistenz über Stunden

Musik & Sound: Jingles & Hintergrundmusik

Einen Sprach-Assistenten ohne Code bauen

Rechte, Kennzeichnung & kommerzielle Nutzung

Aussprache & Feinsteuerung mit SSML

Audio bereinigen & schneiden

Lautheit & Normalisierung — überall gleich laut klingen

Eine Audio-Marke aufbauen

Ethik, Deepfakes & Gesetzeslage