Oneulog

[논문#1/리뷰] PYANNOTE.AUDIO: NEURAL BUILDING BLOCKS FOR SPEAKER DIARIZATION

2024.08.20· Speech/Paper Review

0. ABSTRACT본 논문은 speaker diarization을 위해 python에서 작성된 open-source toolkit인 pyannote.audio를 소개한다. PyTorch 머신 러닝 프레임워크를 기반으로 하는 이 도구는 speaker diarization pipelines를 구축하기 위해 결합하고 공동으로 최적화할 수 있는 일련의 훈련 가능한 end-to-end neural building blocks을 제공한다. 또한 pyannote.audio에는 음성 활동 감지, 화자 변경 감지, 화자 임베딩 등 광범위한 도메인에 대한 pre-trained model이 포함되어 있으며 대부분의 도메인에서 최첨단 성능을 발휘한다. 1. INTRODUCTIONspeaker diarization은 화자 별..

티스토리툴바