Scholars@Duke publication: Multi-Input Multi-Output Target-Speaker Voice Activity Detection for Unified, Flexible, and Robust Audio-Visual Speaker Diarization

Multi-Input Multi-Output Target-Speaker Voice Activity Detection for Unified, Flexible, and Robust Audio-Visual Speaker Diarization

Publication , Journal Article

Cheng, M; Li, M

Published in: IEEE Transactions on Audio, Speech and Language Processing

2025

IEEE Transactions on Audio, Speech and Language Processing

2998-4173

2025

3522 / 3536

Institute of Electrical and Electronics Engineers (IEEE)

APA

Chicago

ICMJE

MLA

NLM

Cheng, M., & Li, M. (2025). Multi-Input Multi-Output Target-Speaker Voice Activity Detection for Unified, Flexible, and Robust Audio-Visual Speaker Diarization. IEEE Transactions on Audio, Speech and Language Processing, 33, 3522–3536. https://doi.org/10.1109/taslpro.2025.3597450

Cheng, Ming, and Ming Li. “Multi-Input Multi-Output Target-Speaker Voice Activity Detection for Unified, Flexible, and Robust Audio-Visual Speaker Diarization.” IEEE Transactions on Audio, Speech and Language Processing 33 (2025): 3522–36. https://doi.org/10.1109/taslpro.2025.3597450.

Cheng, Ming, and Ming Li. “Multi-Input Multi-Output Target-Speaker Voice Activity Detection for Unified, Flexible, and Robust Audio-Visual Speaker Diarization.” IEEE Transactions on Audio, Speech and Language Processing, vol. 33, Institute of Electrical and Electronics Engineers (IEEE), 2025, pp. 3522–36. Crossref, doi:10.1109/taslpro.2025.3597450.

IEEE Transactions on Audio, Speech and Language Processing

2998-4173

2025

3522 / 3536

Institute of Electrical and Electronics Engineers (IEEE)