Voice Passthrough: Clonación de Voz IA para Audio Traducido

Qué Hace Voice Passthrough

La Coincidencia Automática de Voz selecciona la voz TTS preexistente más cercana en el idioma destino para que coincida con las características del hablante. Voice Passthrough hace algo diferente: usa la voz real del hablante como fuente para la síntesis TTS, creando audio traducido que suena como la misma persona hablando el idioma destino.

La diferencia práctica es significativa en contextos donde el reconocimiento de voz importa. Un paciente que ha estado hablando con un médico durante 20 minutos reconoce la voz del médico. Si la salida traducida de las palabras del médico llega en una voz TTS claramente genérica, la conexión entre la persona que el paciente conoce y las palabras que está escuchando se rompe. Voice Passthrough cierra esa brecha.

El Requisito de Consentimiento

La clonación de voz es una capacidad con implicaciones en el mundo real — una voz clonada puede producir audio que suena como alguien diciendo algo que nunca dijo. Puente toma esto en serio.

Voice Passthrough requiere consentimiento explícito en dos pasos antes de la activación:

Casilla de consentimiento — leer y marcar una casilla que explica qué hace la clonación de voz, qué datos se usan y que el modelo de voz clonado se almacena solo en el dispositivo
Toque en “Estoy de acuerdo” — un botón de confirmación separado que debe presionarse después de la casilla

El sistema rechaza categóricamente cualquier solicitud de clonación que no incluya consent: true en los parámetros de la solicitud. No hay forma de activar Voice Passthrough para ti mismo ni para nadie más sin completar ambos pasos de consentimiento. Esto se aplica a nivel del Worker — no es una barrera de UI que pueda eludirse.

Cómo Funciona Técnicamente

Cuando Voice Passthrough ha sido autorizado y está activo:

Se captura una muestra de voz ligera de los primeros 10–15 segundos de habla natural del hablante en la sesión
La muestra se usa para generar un modelo de síntesis de voz que captura las características vocales clave del hablante: rango de frecuencia fundamental, distribución de formantes y envolvente de energía vocal
Toda la salida de traducción posterior para ese hablante se sintetiza usando este modelo en lugar de una voz TTS preexistente
El modelo se almacena solo localmente en el dispositivo — nunca se transmite

Si la muestra de voz es insuficiente (demasiado corta, demasiado ruidosa) o si la síntesis agota el tiempo de espera, el sistema retrocede automáticamente a la Coincidencia Automática de Voz para ese turno de traducción. El retroceso es fluido — no aparece ninguna notificación y la salida de traducción nunca se bloquea.

Voice Passthrough vs. Coincidencia Automática de Voz

	Coincidencia Automática de Voz	Voice Passthrough
Fuente	Biblioteca de voces TTS preexistente	Voz propia del hablante
Consentimiento requerido	No	Sí (dos pasos)
Tiempo de configuración	Ninguno (primeros 3–5 segundos de habla)	~10–15 segundos para muestra inicial
Precisión	Coincidencia disponible más cercana	Coincidencia casi exacta con el hablante
Retroceso	Selección de voz de menor confianza	Coincidencia Automática de Voz
Ideal para	Todas las sesiones por defecto	Sesiones largas, relaciones conocidas

Privacidad

El modelo de voz generado por Voice Passthrough se almacena exclusivamente en el dispositivo del usuario. No se transmite a ningún servidor, no se usa para ningún propósito fuera de la salida de traducción de Puente y no se retiene después de que el usuario lo elimine. Los modelos de voz pueden eliminarse en Configuración → Privacidad → Borrar Modelos de Voz.

Descarga Puente — Voice Passthrough disponible con Pro