azena voice
Du machst aus Text gesprochene Sprache, baust deine eigene Marken-Stimme nach, übersetzt Audio in viele Sprachen ohne die Stimme zu verlieren, verschriftlichst Aufnahmen und vertonst Inhalte mit Musik — alles ohne eine Zeile Code. Und du weißt, wann du eine Einwilligung brauchst und wie du KI-Audio sauber kennzeichnest, damit deine Arbeit professionell und rechtssicher bleibt.
Was du danach kannst
- Aus Text natürliche Sprache erzeugen (Text-to-Speech) und die Ausgabe steuern
- Emotion und Betonung gezielt lenken (Audio Tags, Steuer-Anweisungen)
- Eine eigene Stimme verantwortungsvoll klonen und die Einwilligungsregeln verstehen
- Audio mehrsprachig übersetzen (Dubbing) und Aufnahmen verschriftlichen
- Podcasts, Jingles und Hintergrundmusik mit KI produzieren
- KI-Audio korrekt kennzeichnen und die Rechtslage (EU AI Act, Anbieterregeln) beachten
Das Curriculum
18 Lektionen · Schritt für Schritt
- 01
Was KI-Stimme & Audio heute wirklich kann
9′Erzeugen, klonen, übersetzen, sprechen — der Überblick, bevor du loslegst.
- 02
Deine erste KI-Stimme: Text-to-Speech Grundlagen
9′Text rein, Stimme raus — Stimme, Sprache und Tempo im Browser wählen.
- 03
Emotion steuern: ausdrucksstarke Stimmen
10′Flüstern, lachen, betonen — wie du Gefühl in eine KI-Stimme bringst.
- 04
Gut aufnehmen — Mikrofon, Raum & Pegel
10′Klonen, Dubbing und Schnitt sind nur so gut wie die Aufnahme. Drei Hebel entscheiden über sauberen Ton — und für keinen brauchst du teure Technik, nur ein bisschen Wissen.
- 05
Voice Cloning: deine eigene Stimme nachbauen
10′Aus wenigen Aufnahmen entsteht eine Stimme, die nach dir klingt.
- 06
Einwilligung & Stimmrechte — Pflicht vor jedem Klonen
9′Eine fremde Stimme zu klonen ohne Erlaubnis ist tabu — so machst du es richtig.
- 07
Mehrsprachiges Dubbing — eine Stimme, viele Sprachen
9′Audio in andere Sprachen übersetzen, ohne die Original-Stimme zu verlieren.
- 08
Audio aufnehmen & verschriftlichen (Speech-to-Text)
8′Der umgekehrte Weg: Aus gesprochenem Wort wird sauberer Text.
- 09
Podcast- & Audioproduktion mit KI
9′Mehrere Stimmen, ein klares Skript — eine ganze Folge ohne Mikrofon.
- 10
Hörbücher & Langform — Konsistenz über Stunden
10′Ein einzelner Satz gelingt leicht. Ein Hörbuch dauert Stunden — und über diese Stunden muss alles zusammenpassen. Die schleichende Inkonsistenz ist die eigentliche Gefahr.
- 11
Musik & Sound: Jingles & Hintergrundmusik
9′Ein kurzer Beschreibungssatz wird zu einem fertigen Musikstück.
- 12
Einen Sprach-Assistenten ohne Code bauen
10′Eine Stimme, die zuhört, denkt und antwortet — zusammengeklickt, nicht programmiert.
- 13
Rechte, Kennzeichnung & kommerzielle Nutzung
9′Was du verkaufen darfst, was dir gehört, und was du offenlegen musst.
- 14
Aussprache & Feinsteuerung mit SSML
10′Betonung, Pausen, Zahlen und Namen genau so sprechen lassen, wie du willst.
- 15
Audio bereinigen & schneiden
9′Rauschen entfernen, Versprecher kürzen, sauberer Schnitt — die Nachbearbeitung.
- 16
Lautheit & Normalisierung — überall gleich laut klingen
10′Warum dein Audio neben anderen leise wirkt, hat selten mit dem Inhalt zu tun — sondern mit der Lautheit. Plattformen normalisieren automatisch, also zielst du bewusst auf ihren Wert.
- 17
Eine Audio-Marke aufbauen
9′Eine wiedererkennbare Stimme und ein eigener Klang für ein Unternehmen.
- 18
Ethik, Deepfakes & Gesetzeslage
9′Die Regeln, die KI-Audio von Werkzeug zu Waffe oder umgekehrt machen.
Was du baust
Echte Artefakte, keine Theorie
Deine erste KI-Stimme erzeugen
Ergebnis: Dein optimierter Sprechtext + die gewählte Stimme + ein Satz, was du im Vergleich der Stimmen bemerkt hast.
Eine Aufnahme verschriftlichen & zusammenfassen
Ergebnis: Dein Protokoll + ein Satz, welche Eigennamen/Fachbegriffe du in der Verschriftlichung korrigiert hast.
Eine Einwilligungs-Notiz schreiben
Ergebnis: Deine Einwilligungs-Vorlage (wer/wofür/wo/Zustimmung) als wiederverwendbarer Baustein.
Capstone: Zweisprachiges Erklärvideo mit gekennzeichnetem KI-Audio
Ergebnis: Beide Tonspuren (DE + EN) + die KI-Kennzeichnung + eine kurze Notiz zu Einwilligung und Musik-Lizenz.
Die sprechende Welle
Vom Text zur Stimme zur Sprachversion — wie aus einem Skript hörbares, gekennzeichnetes KI-Audio wird.
Eine Tonspur durchläuft dieselbe Kette: aus Text wird per Text-to-Speech eine ausdrucksstarke Stimme, die sich in über 90 Sprachen übersetzen lässt, ohne ihren Klang zu verlieren — darunter legt sich dezente Musik. Am Ende steht kein Trick, sondern eine Pflicht: die Kennzeichnung als KI-Audio.
- 01
Text
Klares, kurzes Skript als Ausgangsmaterial.
- 02
Stimme
Text-to-Speech mit Audio-Tags wie [whispers]/[laughs].
- 03
Übersetzung
Dubbing in 90+ Sprachen — die Stimme bleibt.
- 04
Musik
Dezente KI-Hintergrundmusik legt sich darunter.
- 05
Kennzeichnung
Hör- und sichtbare KI-Audio-Kennzeichnung.
Ausdruck per Audio-Tags — ohne Code
Inline-Tags wie [whispers] oder [laughs] steuern Emotion direkt im Text, in 70+ Sprachen. OpenAI ergänzt steuerbare Stimmen per instructions-Parameter.
Eine Stimme, viele Sprachen
Automatisches Dubbing überträgt deine Tonspur in über 90 Sprachen und bewahrt dabei Identität, Tonhöhe und Tonfall — Hintergrund und Musik bleiben erhalten.
Erst Zustimmung, dann Kennzeichnung
Fremde Stimmen nur mit nachgewiesener Einwilligung klonen. Der EU AI Act (Art. 50, ab 2.8.2026) verlangt, KI-generierte Audio offenzulegen — bei Anrufen gilt zudem das US-Einwilligungsgebot.
Die ganze Audio-Kette selbst bauen — mit Nova als Mentor, vom Skript bis zur Kennzeichnung.
Track startenBelege & Quellen
Jede Aussage ist belegt — echte, geprüfte Quellen statt Behauptungen.
Reinschnuppern
Gratis-VorschauGO vs. NO-GO — ein echtes Beispiel aus dem Track.
Wie der Track läuft
Mit Nova als Mentor
Dein KI-Mentor erklärt jedes Konzept, gibt dir fertige Claude-Code-Prompts und hilft bei jeder Frage.
Geprüftes Siegel
Plane mit Nova ein kurzes zweisprachiges Audio-Stück für einen echten Zweck. Erklär, mit welchem Werkzeug du die deutsche Stimme erzeugst und warum (Ausdruck vs. Latenz), wie du es ins Englische dubbst, ob du eine Einwilligung brauchst und wie du sie einholst, und wie du das fertige Audio nach Art. 50 kennzeichnest. Sag außerdem, was du kommerziell nutzen darfst und was dir urheberrechtlich gehört.
In deinem Tempo
Rund 138 Minuten Kerninhalt — plus deine eigenen Projekte. Jederzeit pausierbar.
Fehler, die du vermeidest
- Fremde Stimmen ohne Einwilligung klonen — das ist tabu und gegen die Anbieterregeln.
- Die KI-Kennzeichnung weglassen, obwohl Artikel 50 und Anbieter-Richtlinien sie verlangen.
- Für Echtzeit (Live-Telefon) ein ausdrucksstarkes, aber langsames Modell wählen — die Latenz macht es unbrauchbar.
- Annehmen, KI-Musik gehöre einem urheberrechtlich vollständig — kommerziell nutzbar ist nicht eintragbares Urheberrecht.
- Mit schlechtem Skript oder verrauschtem Ausgangsmaterial arbeiten — das ruiniert jedes Klon-, Dubbing- oder Vertonungsergebnis.
Bereit für azena voice?
250 Token · 18 Lektionen · von der KI geprüft.