Knowledge Base

Identidade de Voz (Bússola Acústica): Atribuição de Falante em Tempo Real

Por Que a Atribuição de Falantes Importa

Saber o que foi dito nem sempre é suficiente. Em uma conversa com mais de um falante, saber quem disse muda o significado, a urgência e a resposta adequada.

Uma enfermeira e um médico se dirigem a um paciente. O paciente se dirige ao médico. A saída traduzida de cada falante precisa ser atribuída à pessoa certa — ou a conversa traduzida se torna uma confusa parede de declarações sem contexto relacional.

A Identidade de Voz é a resposta do Puente a isso. Vai além dos rótulos de turno do Modo Grupo e da separação básica de falantes do modo de detecção automática. Constrói uma impressão digital acústica real de cada falante, atribui cada turno de tradução a uma pessoa específica e apresenta essas atribuições visualmente na Vista de Tabela de Falantes.

Os Três Sinais

1. Incorporação de Voz (ECAPA-TDNN)

O Puente constrói uma impressão digital acústica de cada falante usando um modelo ECAPA-TDNN — uma arquitetura de rede neural projetada para verificação de falantes. Essa impressão digital captura a combinação única de frequência fundamental, ressonâncias do trato vocal e características articulatórias que tornam uma voz identificável.

A impressão digital é registrada em um registro de sessão na primeira ocorrência. Em turnos subsequentes, o áudio de entrada é comparado com o registro. Uma correspondência acima do limiar de confiança atribui o turno àquele falante. Este é o sinal de identificação primário e o mais confiável para falantes que já foram ouvidos na sessão atual.

2. Direção de Chegada

Quando o módulo nativo do array de microfones chegar, o Puente usará o ângulo espacial do áudio de entrada para ajudar a distinguir falantes fisicamente localizados em diferentes partes da sala. Uma voz vindo de 30 graus à esquerda é um falante diferente de uma voz de 90 graus à direita.

A Direção de Chegada é uma entrada de fusão, não um identificador independente — ajuda a resolver casos ambíguos onde dois falantes têm vozes acusticamente similares. A arquitetura já está em vigor; o módulo nativo que desbloqueia a resolução direcional completa está em desenvolvimento.

3. Lado PTT

Quando um par de fones de ouvido com controles de botão esquerdo/direito está em uso, o Puente pode usar qual botão de fone foi pressionado como sinal confiável de atribuição de falante. Em uma conversa de duas partes com fones de ouvido, a Parte A segura o fone esquerdo e a Parte B o direito. Pressionar o botão do fone esquerdo para iniciar a fala é um sinal de atribuição inequívoco que não requer nenhuma análise acústica.

O lado PTT é o método mais confiável em contextos de fones de ouvido de duas partes porque é determinístico — não há limiar de probabilidade, não há pontuação de confiança. É o sinal vencedor no motor de fusão quando disponível.

Vista de Tabela de Falantes

A Vista de Tabela de Falantes é um novo layout de exibição disponível quando a Identidade de Voz está ativa. Cada falante identificado recebe uma faixa dedicada codificada por cores na saída de tradução:

  • Codificação por cores — até 8 cores distintas, uma por falante identificado
  • Setas de direção — quando os dados de Direção de Chegada estão disponíveis, um ícone de seta mostra a posição aproximada do falante na sala
  • Folha de detalhes com pressão longa — toque e segure qualquer faixa de falante para ver o detalhamento da identificação: pontuação de confiança ECAPA-TDNN, estimativa de direção (se disponível), lado PTT (se aplicável)

A folha de detalhes existe para transparência: o Puente mostra exatamente como identificou cada falante, para que você possa confiar na atribuição — ou corrigi-la manualmente se o sistema cometeu um erro.

Privacidade

As incorporações de voz construídas pela Bússola Acústica são armazenadas localmente no dispositivo. Nunca são enviadas a nenhum servidor, nunca compartilhadas com terceiros e nunca usadas para nenhum propósito fora da atribuição de falantes nas sessões do Puente. Você pode limpar todos os perfis de falantes armazenados em Configurações → Privacidade → Limpar Perfis de Voz.

Baixe o Puente — Vista de Tabela de Falantes disponível com Pro