Voice Passthrough: KI-Stimmklonierung für Übersetzte Audioausgabe

Was Voice Passthrough Tut

Automatisches Stimm-Matching wählt die nächstliegende vorhandene TTS-Stimme in der Zielsprache aus, um den Eigenschaften des Sprechers zu entsprechen. Voice Passthrough macht etwas anderes: Es verwendet die tatsächliche Stimme des Sprechers als Quelle für die TTS-Synthese und erstellt übersetztes Audio, das klingt, als würde dieselbe Person die Zielsprache sprechen.

Der praktische Unterschied ist in Kontexten erheblich, in denen Stimmenerkennung wichtig ist. Ein Patient, der 20 Minuten lang mit einem Arzt gesprochen hat, erkennt die Stimme des Arztes. Wenn die übersetzte Ausgabe der Worte des Arztes in einer eindeutig generischen TTS-Stimme ankommt, wird die Verbindung zwischen der Person, die der Patient kennt, und den Worten, die er hört, unterbrochen. Voice Passthrough schließt diese Lücke.

Die Zustimmungsanforderung

Stimmklonierung ist eine Fähigkeit mit realen Auswirkungen — eine geklonte Stimme kann Audio produzieren, das klingt, als würde jemand etwas sagen, das er nie gesagt hat. Puente nimmt dies ernst.

Voice Passthrough erfordert explizite Zwei-Schritt-Zustimmung vor der Aktivierung:

Zustimmungsfeld — Lesen und Ankreuzen eines Feldes, das erklärt, was Stimmklonierung tut, welche Daten verwendet werden und dass das geklonte Stimmmodell nur auf dem Gerät gespeichert wird
Tippen auf „Ich stimme zu” — eine separate Bestätigungsschaltfläche, die nach dem Kontrollkästchen gedrückt werden muss

Das System lehnt jede Klonanfrage, die kein consent: true in den Anfrageparametern enthält, kategorisch ab. Es gibt keine Möglichkeit, Voice Passthrough für sich selbst oder jemand anderen zu aktivieren, ohne beide Zustimmungsschritte abzuschließen. Dies wird auf Worker-Ebene durchgesetzt — es ist kein UI-Gate, das umgangen werden kann.

Wie Es Technisch Funktioniert

Wenn Voice Passthrough genehmigt und aktiv ist:

Eine leichte Stimmprobe wird aus den ersten 10–15 Sekunden natürlicher Sprache des Sprechers in der Sitzung aufgenommen
Die Probe wird verwendet, um ein Stimmsynthesemodell zu generieren, das die wichtigsten Stimmmerkmale des Sprechers erfasst: Grundfrequenzbereich, Formantenverteilung und Stimmenergie-Hüllkurve
Alle nachfolgende Übersetzungsausgabe für diesen Sprecher wird mit diesem Modell anstelle einer vorhandenen TTS-Stimme synthetisiert
Das Modell wird ausschließlich lokal auf dem Gerät gespeichert — nie übertragen

Wenn die Stimmprobe unzureichend ist (zu kurz, zu geräuschvoll) oder die Synthese abläuft, fällt das System automatisch auf Automatisches Stimm-Matching für diesen Übersetzungswechsel zurück. Der Fallback ist nahtlos — keine Benachrichtigung erscheint und die Übersetzungsausgabe wird nie blockiert.

Voice Passthrough vs. Automatisches Stimm-Matching

	Automatisches Stimm-Matching	Voice Passthrough
Quelle	Vorhandene TTS-Stimmbibliothek	Eigene Stimme des Sprechers
Zustimmung erforderlich	Nein	Ja (zwei Schritte)
Einrichtungszeit	Keine (erste 3–5 Sekunden Sprache)	~10–15 Sekunden für erste Probe
Genauigkeit	Nächstverfügbare Übereinstimmung	Fast exakte Sprecherübereinstimmung
Fallback	Stimmauswahl mit niedrigerer Konfidenz	Automatisches Stimm-Matching
Am besten für	Alle Sitzungen standardmäßig	Lange Sitzungen, bekannte Beziehungen

Datenschutz

Das von Voice Passthrough generierte Stimmmodell wird ausschließlich auf dem Gerät des Benutzers gespeichert. Es wird nicht an einen Server übertragen, nicht für andere Zwecke als Puentes Übersetzungsausgabe verwendet und nicht behalten, nachdem der Benutzer es gelöscht hat. Stimmmodelle können in Einstellungen → Datenschutz → Stimmmodelle löschen entfernt werden.

Puente herunterladen — Voice Passthrough verfügbar mit Pro