Single-Channel Speech Enhancement with Prior Knowledge
- Promovendus/a
- Song, Yanjue
- Faculteit
- Faculteit Ingenieurswetenschappen en Architectuur
- Vakgroep
- Vakgroep Elektronica en Informatiesystemen
- Curriculum
- Master of Engineering in Architectural and Civil Engineering, Tongji University (China), 2019
- Academische graad
- Doctor in de ingenieurswetenschappen
- Taal proefschrift
- Engels
- Promotor(en)
- prof. Nilesh Madhu, vakgroep Elektronica en Informatiesystemen - prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen
- Examencommissie
- voorzitter prof. Hennie De Schepper (onderwijsdirecteur) - prof. Tony Belpaeme, vakgroep Elektronica en Informatiesystemen - prof. Paul Devos, vakgroep Informatietechnologie - prof. Hong-Goo Kang, Yonsei University, Zuid-Korea - prof. Gerhard Schmidt, Christian-Albrechts-Universität zu Kiel, Duitsland - promotor prof. Nilesh Madhu, vakgroep Elektronica en Informatiesystemen - promotor prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen
Korte beschrijving
Spraak is een primaire vorm van menselijke communicatie en speelt een cruciale rol in onze digitale interacties, met name in online communicatie en mens-machine interfaces. Naarmate er meer microfoons in apparaten worden ingebouwd, wordt de uitdaging om echte spraaksignalen te verwerken die vervormd zijn door achtergrondruis en nagalm aanzienlijk. Single-channel spraakverbetering, waarbij getracht wordt om zuivere spraak te herstellen uit zulke vervormde signalen opgevangen door een enkele microfoon, is al tientallen jaren een actief onderzoeksonderwerp, en is het onderwerp van dit proefschrift. Traditioneel waren spraakverbeteringmethoden gebaseerd op statistische modellen, maar recente ontwikkelingen zijn verschoven naar diepe neurale netwerken (DNN)-gebaseerde benaderingen. Mijn onderzoek richt zich op het introduceren van voorkennis van spraak - afgeleid van gevestigde wetenschappelijke inzichten of gecodeerd door DNN's getraind op uitgebreide data - in deze verbeteringssystemen om de prestaties te verbeteren. In dit proefschrift worden de componenten van spraaksignalen systematisch onderzocht en manieren verkend om aanvullende beperkingen te integreren die mogelijk ontbreken in bestaande systemen. De voorgestelde benaderingen maken effectief gebruik van domeinkennis om de verstaanbaarheid en kwaliteit van spraak te verbeteren. Evaluaties op ongeziene data tonen de duidelijke voordelen van het integreren van extra informatie.
Praktisch
- Datum
- Vrijdag 14 maart 2025, 16:30
- Locatie
- leslokaal 1.1 Baekeland, gebouw 130 Baekeland, eerste verdieping, Technologiepark 130, 9052 Zwijnaarde
- Livestream
- Volg online
Meer info
- Contact
- doctoraat.ea@UGent.be