Speaker diarization, or the task of automatically determining "who spoke, when?" in an audio or video recording, is one of the pillars of modern conversation analysis systems. On television, the content broadcasted is very diverse and covers about every type of conversation, from calm discussions between two people to impassioned debates and wartime interviews. The archiving and indexing of this content, carried out by the Newsbridge company, requires robust and fair processing methods. In this work, we present two new methods for improving systems' robustness via fusion approaches. The first method focuses on voice activity detection, a necessary pre-processing step for every diarization system. The second is a multimodal approach that takes advantage of the latest advances in natural language processing. We also show that recent advances in diarization systems make the use of speaker diarization realistic, even in critical sectors such as the analysis of large audiovisual archives or the home care of the elderly. Finally, this work shows a new method for evaluating the algorithmic fairness of speaker diarization, with the objective to make its use more responsible.
Authors
Related Organizations
- Bibliographic Reference
- Yannis Tevissen. Diarisation multimodale : vers des modèles robustes et justes en contexte réel. Intelligence artificielle [cs.AI]. Institut Polytechnique de Paris, 2023. Français. ⟨NNT : 2023IPPAS014⟩. ⟨tel-04345081⟩
- HAL Collection
- STAR - Dépôt national des thèses électroniques
- HAL Identifier
- 4345081
- Institution
- Télécom SudParis
- Laboratory
- Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux
- Published in
- France
Table of Contents
- Remerciements 4
- Table des matières 6
- Introduction .................................................................................. 6
- Partie I Robustesse de la diarisation du locuteur ................. 6
- Partie II Vers une diarisation responsable ............................ 8
- Conclusion ................................................................................. 9
- Bibliographie ............................................................................. Annexes ...................................................................................... 9
- Introduction 10
- Introduction générale 12
- I. Définitions 13
- II. Résumé des contributions 15
- III. Plan du mémoire 16
- Contexte de la recherche 18
- I. Présentation de Newsbridge 18
- II. Indexation automatique de contenus diffusés à la télévision 20
- Partie I Robustesse de la diarisation du locuteur 26
- Chapitre I État de lart de la diarisation acoustique 28
- I. Détection dactivité vocale et segmentation 30
- II. Représentations vectorielles de la parole 31
- III. Méthodes de regroupement pour la diarisation 37
- IV. Resegmentation 39
- V. Diarisation bout-en-bout 40
- Chapitre II Les problèmes de robustesse de la diarisation classique 44
- I. Principales limites des algorithmes de diarisation 44
- II. Jeux de données adaptés à la diarisation 50
- III. Contribution Détection dactivité vocale multi-flux pour la diarisation 52
- Chapitre III Diarisation multimodale 64
- I. État de lart des approches audio-visuelles 64
- II. État de lart des approches audio-sémantiques 68
- III. Contribution Détection de changement du locuteur grâce aux modèles de langage volumineux 70
- Conclusion sur la robustesse de la diarisation 80
- Partie II Vers une diarisation responsable 82
- Chapitre IV État de lart de lévaluation de la diarisation 84
- I. État de lart Métriques existantes 84
- II. Protocoles dannotation et dévaluation de la diarisation 86
- III. Besoin de justesse dans le traitement des contenus destinés à une large diffusion 87
- Chapitre V Contribution étude de la justesse de la diarisation 90
- I. Introduction du taux de justesse de la diarisation 90
- II. Jeu de données Mozilla Commonvoice 92
- III. Résultats et biais identifiés 92
- IV. Limites de cette approche 100
- Chapitre VI Consommation énergétique de la diarisation appliquée à grande échelle 104
- I. Diarisation économe en énergie 104
- II. Contribution Mise en production dun algorithme de diarisation du locuteur pour lanalyse multimédia à grande échelle 104
- III. Applications médicales de la diarisation 107
- IV. Contribution application des méthodes récentes de diarisation au domaine médical 110
- Conclusion sur la diarisation responsable 116
- Conclusion 118
- I. Conclusion 120
- II. Perspectives 121
- Bibliographie 122
- Annexes 138
- Liste des communications 140
- Articles 140
- Présentations orales 140
- Posters 141
- Résumé des principales méthodes de diarisation 142
- Table des abréviations 144
- Liste des figures 146
- Liste des tableaux 150
- Liste des projets utilisés 152