Pourquoi l’Attribution des Locuteurs Est Importante
Savoir ce qui a été dit ne suffit pas toujours. Dans une conversation avec plus d’un locuteur, savoir qui l’a dit change le sens, l’urgence et la réponse appropriée.
Une infirmière et un médecin s’adressent à un patient. Le patient s’adresse au médecin. La sortie traduite de chaque locuteur doit être attribuée à la bonne personne — sinon la conversation traduite devient un mur confus de déclarations sans contexte relationnel.
L’Identité Vocale est la réponse de Puente à cela. Elle va au-delà des étiquettes de tour du Mode Groupe et de la séparation basique des locuteurs du mode de détection automatique. Elle construit une véritable empreinte acoustique de chaque locuteur, attribue chaque tour de traduction à une personne spécifique et présente ces attributions visuellement dans la Vue Table des Locuteurs.
Les Trois Signaux
1. Intégration Vocale (ECAPA-TDNN)
Puente construit une empreinte acoustique de chaque locuteur en utilisant un modèle ECAPA-TDNN — une architecture de réseau neuronal conçue pour la vérification des locuteurs. Cette empreinte capture la combinaison unique de fréquence fondamentale, de résonances du tractus vocal et de caractéristiques articulatoires qui rendent une voix identifiable.
L’empreinte est enregistrée dans un registre de session lors de la première occurrence. Lors des tours suivants, l’audio entrant est comparé au registre. Une correspondance au-dessus du seuil de confiance attribue le tour à ce locuteur. C’est le signal d’identification principal et le plus fiable pour les locuteurs qui ont déjà été entendus dans la session en cours.
2. Direction d’Arrivée
Lorsque le module natif du réseau de microphones sera livré, Puente utilisera l’angle spatial de l’audio entrant pour aider à distinguer les locuteurs physiquement situés dans différentes parties de la pièce. Une voix venant de 30 degrés à gauche est un locuteur différent d’une voix à 90 degrés à droite.
La Direction d’Arrivée est une entrée de fusion, pas un identifiant autonome — elle aide à résoudre les cas ambigus où deux locuteurs ont des voix acoustiquement similaires. L’architecture est déjà en place ; le module natif qui débloque la résolution directionnelle complète est en développement.
3. Côté PTT
Lorsqu’une paire d’écouteurs avec des contrôles de bouton gauche/droit est utilisée, Puente peut utiliser quel bouton d’écouteur a été pressé comme signal fiable d’attribution du locuteur. Dans une conversation à deux parties avec des écouteurs, la Partie A tient l’écouteur gauche et la Partie B le droit. Appuyer sur le bouton de l’écouteur gauche pour initier la parole est un signal d’attribution non ambigu qui ne nécessite aucune analyse acoustique.
Le côté PTT est la méthode la plus fiable dans les contextes d’écouteurs à deux parties parce qu’il est déterministe — il n’y a pas de seuil de probabilité, pas de score de confiance. C’est le signal gagnant dans le moteur de fusion lorsqu’il est disponible.
Vue Table des Locuteurs
La Vue Table des Locuteurs est une nouvelle mise en page d’affichage disponible lorsque l’Identité Vocale est active. Chaque locuteur identifié obtient une voie dédiée codée par couleur dans la sortie de traduction :
- Codage par couleur — jusqu’à 8 couleurs distinctes, une par locuteur identifié
- Flèches de direction — lorsque les données de Direction d’Arrivée sont disponibles, une icône de flèche montre la position approximative du locuteur dans la pièce
- Fiche de détails avec appui long — appuyez et maintenez n’importe quelle voie de locuteur pour voir le détail de l’identification : score de confiance ECAPA-TDNN, estimation de direction (si disponible), côté PTT (si applicable)
La fiche de détails existe pour la transparence : Puente vous montre exactement comment il a identifié chaque locuteur, afin que vous puissiez faire confiance à l’attribution — ou la corriger manuellement si le système a fait une erreur.
Confidentialité
Les intégrations vocales construites par la Boussole Acoustique sont stockées localement sur l’appareil. Elles ne sont jamais téléchargées vers aucun serveur, jamais partagées avec des tiers et jamais utilisées à d’autres fins que l’attribution des locuteurs dans les sessions Puente. Vous pouvez effacer tous les profils de locuteurs stockés dans Paramètres → Confidentialité → Effacer les Profils Vocaux.
Téléchargez Puente — Vue Table des Locuteurs disponible avec Pro