O Que o Voice Passthrough Faz
A Correspondência Automática de Voz seleciona a voz TTS pré-existente mais próxima no idioma de destino para corresponder às características do falante. O Voice Passthrough faz algo diferente: usa a voz real do falante como fonte para síntese TTS, criando áudio traduzido que soa como a mesma pessoa falando o idioma de destino.
A diferença prática é significativa em contextos onde o reconhecimento de voz importa. Um paciente que esteve falando com um médico por 20 minutos reconhece a voz do médico. Se a saída traduzida das palavras do médico chegar em uma voz TTS claramente genérica, a conexão entre a pessoa que o paciente conhece e as palavras que está ouvindo é rompida. O Voice Passthrough fecha essa lacuna.
O Requisito de Consentimento
A clonagem de voz é uma capacidade com implicações no mundo real — uma voz clonada pode produzir áudio que soa como alguém dizendo algo que nunca disse. O Puente trata isso com seriedade.
O Voice Passthrough requer consentimento explícito em duas etapas antes da ativação:
- Caixa de consentimento — ler e marcar uma caixa que explica o que a clonagem de voz faz, quais dados são usados e que o modelo de voz clonado é armazenado somente no dispositivo
- Toque em “Eu Concordo” — um botão de confirmação separado que deve ser pressionado após a caixa de seleção
O sistema rejeita categoricamente qualquer solicitação de clonagem que não inclua consent: true nos parâmetros da solicitação. Não há como ativar o Voice Passthrough para si mesmo ou para qualquer outra pessoa sem concluir ambas as etapas de consentimento. Isso é aplicado no nível do Worker — não é uma barreira de UI que pode ser contornada.
Como Funciona Tecnicamente
Quando o Voice Passthrough foi autorizado e está ativo:
- Uma amostra de voz leve é capturada dos primeiros 10–15 segundos de fala natural do falante na sessão
- A amostra é usada para gerar um modelo de síntese de voz que captura as principais características vocais do falante: faixa de frequência fundamental, distribuição de formantes e envelope de energia vocal
- Toda a saída de tradução subsequente para aquele falante é sintetizada usando este modelo em vez de uma voz TTS pré-existente
- O modelo é armazenado localmente no dispositivo apenas — nunca transmitido
Se a amostra de voz for insuficiente (muito curta, muito ruidosa) ou se a síntese expirar, o sistema retorna automaticamente para Correspondência Automática de Voz para aquele turno de tradução. O retorno é perfeito — nenhuma notificação aparece e a saída de tradução nunca é bloqueada.
Voice Passthrough vs. Correspondência Automática de Voz
| Correspondência Automática de Voz | Voice Passthrough | |
|---|---|---|
| Fonte | Biblioteca de vozes TTS pré-existente | Própria voz do falante |
| Consentimento necessário | Não | Sim (duas etapas) |
| Tempo de configuração | Nenhum (primeiros 3–5 segundos de fala) | ~10–15 segundos para amostra inicial |
| Precisão | Correspondência disponível mais próxima | Correspondência quase exata com o falante |
| Retorno | Seleção de voz de menor confiança | Correspondência Automática de Voz |
| Melhor para | Todas as sessões por padrão | Sessões longas, relacionamentos conhecidos |
Privacidade
O modelo de voz gerado pelo Voice Passthrough é armazenado exclusivamente no dispositivo do usuário. Não é transmitido a nenhum servidor, não é usado para nenhum propósito fora da saída de tradução do Puente e não é retido depois que o usuário o exclui. Os modelos de voz podem ser excluídos em Configurações → Privacidade → Limpar Modelos de Voz.