Por Qué Importa la Atribución de Hablantes
Saber qué se dijo no siempre es suficiente. En una conversación con más de un hablante, saber quién lo dijo cambia el significado, la urgencia y la respuesta apropiada.
Una enfermera y un médico se dirigen a un paciente. El paciente se dirige al médico. La salida traducida de cada hablante debe atribuirse a la persona correcta — o la conversación traducida se convierte en una confusa pared de declaraciones sin contexto relacional.
La Identidad de Voz es la respuesta de Puente a esto. Va más allá de las etiquetas de turno del Modo Grupal y la separación básica de hablantes del modo de detección automática. Construye una huella acústica real de cada hablante, atribuye cada turno de traducción a una persona específica y presenta esas atribuciones visualmente en la Vista de Tabla de Hablantes.
Las Tres Señales
1. Incrustación de Voz (ECAPA-TDNN)
Puente construye una huella acústica de cada hablante usando un modelo ECAPA-TDNN — una arquitectura de red neuronal diseñada para la verificación de hablantes. Esta huella captura la combinación única de frecuencia fundamental, resonancias del tracto vocal y características articulatorias que hacen identificable a una voz.
La huella se registra en un registro de sesión en la primera ocurrencia. En turnos posteriores, el audio entrante se compara con el registro. Una coincidencia por encima del umbral de confianza atribuye el turno a ese hablante. Esta es la señal de identificación principal y la más confiable para hablantes que ya han sido escuchados en la sesión actual.
2. Dirección de Llegada
Cuando el módulo nativo del arreglo de micrófonos llegue, Puente usará el ángulo espacial del audio entrante para ayudar a distinguir hablantes físicamente ubicados en diferentes partes de la sala. Una voz que viene de 30 grados a la izquierda es un hablante diferente a una voz de 90 grados a la derecha.
La Dirección de Llegada es una entrada de fusión, no un identificador independiente — ayuda a resolver casos ambiguos donde dos hablantes tienen voces acústicamente similares. La arquitectura ya está en su lugar; el módulo nativo que desbloquea la resolución direccional completa está en desarrollo.
3. Lado PTT
Cuando se usa un par de auriculares con controles de botón izquierdo/derecho, Puente puede usar qué botón de auricular se presionó como señal confiable de atribución de hablante. En una conversación de dos partes con auriculares, la Parte A sostiene el auricular izquierdo y la Parte B el derecho. Presionar el botón del auricular izquierdo para iniciar el habla es una señal de atribución inequívoca que no requiere ningún análisis acústico.
El lado PTT es el método más confiable en contextos de auriculares de dos partes porque es determinístico — no hay umbral de probabilidad, no hay puntuación de confianza. Es la señal ganadora en el motor de fusión cuando está disponible.
Vista de Tabla de Hablantes
La Vista de Tabla de Hablantes es un nuevo diseño de pantalla disponible cuando la Identidad de Voz está activa. Cada hablante identificado obtiene un carril dedicado codificado por color en la salida de traducción:
- Codificación por colores — hasta 8 colores distintos, uno por hablante identificado
- Flechas de dirección — cuando los datos de Dirección de Llegada están disponibles, un ícono de flecha muestra la posición aproximada del hablante en la sala
- Hoja de detalles con pulsación larga — toca y mantén presionado cualquier carril de hablante para ver el desglose de identificación: puntuación de confianza ECAPA-TDNN, estimación de dirección (si está disponible), lado PTT (si aplica)
La hoja de detalles existe para mayor transparencia: Puente te muestra exactamente cómo identificó a cada hablante, para que puedas confiar en la atribución — o corregirla manualmente si el sistema cometió un error.
Privacidad
Las incrustaciones de voz construidas por la Brújula Acústica se almacenan localmente en el dispositivo. Nunca se cargan a ningún servidor, nunca se comparten con terceros y nunca se usan para ningún propósito fuera de la atribución de hablantes en las sesiones de Puente. Puedes borrar todos los perfiles de hablantes almacenados en Configuración → Privacidad → Borrar Perfiles de Voz.
Descarga Puente — Vista de Tabla de Hablantes disponible con Pro