Por Que a Atribuição de Falantes Importa
Saber o que foi dito nem sempre é suficiente. Em uma conversa com mais de um falante, saber quem disse muda o significado, a urgência e a resposta adequada.
Uma enfermeira e um médico se dirigem a um paciente. O paciente se dirige ao médico. A saída traduzida de cada falante precisa ser atribuída à pessoa certa — ou a conversa traduzida se torna uma confusa parede de declarações sem contexto relacional.
A Identidade de Voz é a resposta do Puente a isso. Vai além dos rótulos de turno do Modo Grupo e da separação básica de falantes do modo de detecção automática. Constrói uma impressão digital acústica real de cada falante, atribui cada turno de tradução a uma pessoa específica e apresenta essas atribuições visualmente na Vista de Tabela de Falantes.
Os Três Sinais
1. Incorporação de Voz (ECAPA-TDNN)
O Puente constrói uma impressão digital acústica de cada falante usando um modelo ECAPA-TDNN — uma arquitetura de rede neural projetada para verificação de falantes. Essa impressão digital captura a combinação única de frequência fundamental, ressonâncias do trato vocal e características articulatórias que tornam uma voz identificável.
A impressão digital é registrada em um registro de sessão na primeira ocorrência. Em turnos subsequentes, o áudio de entrada é comparado com o registro. Uma correspondência acima do limiar de confiança atribui o turno àquele falante. Este é o sinal de identificação primário e o mais confiável para falantes que já foram ouvidos na sessão atual.
2. Direção de Chegada
Quando o módulo nativo do array de microfones chegar, o Puente usará o ângulo espacial do áudio de entrada para ajudar a distinguir falantes fisicamente localizados em diferentes partes da sala. Uma voz vindo de 30 graus à esquerda é um falante diferente de uma voz de 90 graus à direita.
A Direção de Chegada é uma entrada de fusão, não um identificador independente — ajuda a resolver casos ambíguos onde dois falantes têm vozes acusticamente similares. A arquitetura já está em vigor; o módulo nativo que desbloqueia a resolução direcional completa está em desenvolvimento.
3. Lado PTT
Quando um par de fones de ouvido com controles de botão esquerdo/direito está em uso, o Puente pode usar qual botão de fone foi pressionado como sinal confiável de atribuição de falante. Em uma conversa de duas partes com fones de ouvido, a Parte A segura o fone esquerdo e a Parte B o direito. Pressionar o botão do fone esquerdo para iniciar a fala é um sinal de atribuição inequívoco que não requer nenhuma análise acústica.
O lado PTT é o método mais confiável em contextos de fones de ouvido de duas partes porque é determinístico — não há limiar de probabilidade, não há pontuação de confiança. É o sinal vencedor no motor de fusão quando disponível.
Vista de Tabela de Falantes
A Vista de Tabela de Falantes é um novo layout de exibição disponível quando a Identidade de Voz está ativa. Cada falante identificado recebe uma faixa dedicada codificada por cores na saída de tradução:
- Codificação por cores — até 8 cores distintas, uma por falante identificado
- Setas de direção — quando os dados de Direção de Chegada estão disponíveis, um ícone de seta mostra a posição aproximada do falante na sala
- Folha de detalhes com pressão longa — toque e segure qualquer faixa de falante para ver o detalhamento da identificação: pontuação de confiança ECAPA-TDNN, estimativa de direção (se disponível), lado PTT (se aplicável)
A folha de detalhes existe para transparência: o Puente mostra exatamente como identificou cada falante, para que você possa confiar na atribuição — ou corrigi-la manualmente se o sistema cometeu um erro.
Privacidade
As incorporações de voz construídas pela Bússola Acústica são armazenadas localmente no dispositivo. Nunca são enviadas a nenhum servidor, nunca compartilhadas com terceiros e nunca usadas para nenhum propósito fora da atribuição de falantes nas sessões do Puente. Você pode limpar todos os perfis de falantes armazenados em Configurações → Privacidade → Limpar Perfis de Voz.
Baixe o Puente — Vista de Tabela de Falantes disponível com Pro