Single-Channel Speech Enhancement with Prior Knowledge

Promovendus/a: Song, Yanjue
Faculteit: Faculteit Ingenieurswetenschappen en Architectuur
Vakgroep: Vakgroep Elektronica en Informatiesystemen
Curriculum: Master of Engineering in Architectural and Civil Engineering, Tongji University (China), 2019
Academische graad: Doctor in de ingenieurswetenschappen
Taal proefschrift: Engels
Promotor(en): prof. Nilesh Madhu, vakgroep Elektronica en Informatiesystemen - prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen
Examencommissie: voorzitter prof. Hennie De Schepper (onderwijsdirecteur) - prof. Tony Belpaeme, vakgroep Elektronica en Informatiesystemen - prof. Paul Devos, vakgroep Informatietechnologie - prof. Hong-Goo Kang, Yonsei University, Zuid-Korea - prof. Gerhard Schmidt, Christian-Albrechts-Universität zu Kiel, Duitsland - promotor prof. Nilesh Madhu, vakgroep Elektronica en Informatiesystemen - promotor prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen

Korte beschrijving

Spraak is een primaire vorm van menselijke communicatie en speelt een cruciale rol in onze digitale interacties, met name in online communicatie en mens-machine interfaces. Naarmate er meer microfoons in apparaten worden ingebouwd, wordt de uitdaging om echte spraaksignalen te verwerken die vervormd zijn door achtergrondruis en nagalm aanzienlijk. Single-channel spraakverbetering, waarbij getracht wordt om zuivere spraak te herstellen uit zulke vervormde signalen opgevangen door een enkele microfoon, is al tientallen jaren een actief onderzoeksonderwerp, en is het onderwerp van dit proefschrift. Traditioneel waren spraakverbeteringmethoden gebaseerd op statistische modellen, maar recente ontwikkelingen zijn verschoven naar diepe neurale netwerken (DNN)-gebaseerde benaderingen. Mijn onderzoek richt zich op het introduceren van voorkennis van spraak - afgeleid van gevestigde wetenschappelijke inzichten of gecodeerd door DNN's getraind op uitgebreide data - in deze verbeteringssystemen om de prestaties te verbeteren. In dit proefschrift worden de componenten van spraaksignalen systematisch onderzocht en manieren verkend om aanvullende beperkingen te integreren die mogelijk ontbreken in bestaande systemen. De voorgestelde benaderingen maken effectief gebruik van domeinkennis om de verstaanbaarheid en kwaliteit van spraak te verbeteren. Evaluaties op ongeziene data tonen de duidelijke voordelen van het integreren van extra informatie.

Praktisch

Datum: Vrijdag 14 maart 2025, 16:30
Locatie: leslokaal 1.1 Baekeland, gebouw 130 Baekeland, eerste verdieping, Technologiepark 130, 9052 Zwijnaarde
Livestream: Volg online

Meer info

Contact: doctoraat.ea@UGent.be

Single-Channel Speech Enhancement with Prior Knowledge

Korte beschrijving

Praktisch

Meer info

Opleidingen

Onderzoek

Over de UGent

Tools