[AUDITORY] [Postdoc] Multiple speech source tracking, Orange Labs, France

Hello,

The audio processing team at Orange Labs is looking for a postdoc on the subject of tracking multiple speakers, by exploiting their spatial and spectral cues. The chosen candidate would begin on the 1^st of February 2022 (at latest), for the period of 12 months (initially, there is a possible extension to 18 months at the end of the one-year contract). The postdoc description bellow is given in French, however the English-speaking candidates are welcome to apply as well. Should you have any inquiries, please feel free to contact us directly to alexander.guering@xxxxxxxxxx or srdan.kitic@xxxxxxxxxx .

Best regards,

Srdan Kitic

Tracking de sources sonores par une antenne sphérique et réseaux de neurones profonds

Votre rôle est de développer et de comparer des algorithmes de poursuite (connu sous le terme anglais de tracking) de sources sonores à l’aide d’une antenne acoustique sphérique.

Dans la thématique du traitement d’antenne acoustique, la localisation des sources sonores est généralement un pré-requis à un certain nombre de fonctionnalités comme le rehaussement ou la séparation de sources. De récents travaux de thèse de Pierre-Amaury Grumiaux sur la localisation [1] ont montré toute la pertinence des réseaux de neurones profonds pour compter et localiser jusqu’à 5 sources simultanées. Cependant, ces observations de position sont non-labellisées, bruitées, et peuvent être de simples fausses-alarmes. Aussi, avant de pouvoir interfacer ces observations de position avec un algorithme de séparation de sources, il est nécessaire d’associer ces positions « brutes » à des sources réelles : i.e. décider si c’est une vraie observation (détection), et le cas échéant déduire de cette observation une position vraisemblable. C’est le rôle du tracking ou suivi de sources.

La mission du post-doc sera de développer et d’évaluer plusieurs versions de tracker. Le tracker qui servira de référence est l’algorithme TRAMP développé par notre équipe : basé sur le filtrage particulaire, il n’exploite que les données brutes de localisation pour effectuer le suivi de trajectoire [2]. Sur le même principe, le premier tracker à développer sera basé sur des filtres PHD « Probability Hypothesis Density » [3] qui ont l’avantage, via une formalisation probabiliste Bayesienne, de gérer simultanément la détection et la localisation à partir de données bruitées et/ou manquantes. Dans un deuxième temps, on désire aborder des approches de tracking par réseau de neurones. Sur ce point, bien que la littérature sur le suivi d’objets visuels soit très fournie, elle reste encore très restreinte concernant celui des sources sonores. Dans un deuxième temps, on visera à renforcer le tracking en exploitant la signature spectrale des sources sonores. Le principe consistera à extraire via un réseau de neurones profond, des embeddings propres à chaque source qui, couplés aux positions brutes, aideront à robustifier les trajectoires : on pourra par exemple s’inspirer des «x-vector» qui ont prouvé leur efficacité en reconnaissance et discrimination de locuteurs [4]. En parallèle, une piste complémentaire sera d’apprendre, également par un DNN, la fonction de distance utilisée par le tracker pour ces données augmentées : en effet, si la distance « sur le grand cercle » ou orthodromique est une distance naturelle pour des données de position sur la sphère, la distance entre signatures spectrales et/ou positions reste à définir.

La validation se fera sur des scènes labellisées synthétiques de sources fixes et mobiles (ces scènes pourront être créées grâce au logiciel ICARE de synthèse d’acoustique de salle), ainsi que sur quelques scènes réelles qu’il faudra enregistrer à l’aide de microphones sphériques (Zylia ZM-1 et Zoom H3-VR).

Ce post-doc se situe donc à la frontière du traitement du signal audio et des réseaux de neurones profonds. Si l’application concerne le suivi de sources, l’expérience acquise pourra être valorisée dans de nombreux domaines en vogue, comme la reconnaissance de locuteurs, la diarisation, la séparation de sources, qui font l’objet d’activité de recherche soutenue, que ce soit dans le milieu universitaire ou chez les GAFAM.

Planning prévisionnel :

Implémentation tracker PHD (T0->T0+4 mois)
Génération d’une de base de données de scènes complexes avec logiciel ICARE (T0->T0+4 mois)
Evaluation des méthodes développées et comparaison avec l’état de l’art (T0+4->T0+5 mois)
Etat de l’art sur la génération d’embeddings par DNN adaptés au tracking (T0+5->T0+6 mois)
Apprentissage de DNN adaptés au tracking (T0+6->T0+12 mois)
Documentation, publications, brevets (selon l’avancement)

Références

[1] P.A. Grumiaux, S. Kitic, L. Girin, and A. Guérin, “Improved feature extraction for CRNN-based multiple sound source localization,” in Proc. Europ. Signal Process. Conf. (EUSIPCO), Dublin, Ireland, 2021, https://arxiv.org/abs/2105.01897

[2] S. Kitic, A. Guerin « TRAMP: Tracking by a Real-time AMbisonic-based Particle filter », LOCATA Challenge, 2018, https://arxiv.org/abs/1810.04080

[3] B.T. Vo, B.N. Vo, « Labeled Random Finite Sets and Multi-Object Conjugate Priors”, IEEE Transactions on Signal Processing, 2013 https://ieeexplore.ieee.org/abstract/document/6507656

[4]. D. Snyder, D. Garcia-Romero, G. Sell, D. Povey and S. Khudanpur, "X-Vectors: Robust DNN Embeddings for Speaker Recognition," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018. https://www.danielpovey.com/files/2018_icassp_xvectors.pdf

Profil :

Titulaire d’une thèse en traitement du signal et/ou machine learning, vous possédez les compétences et qualités personnelles suivantes :

§ Pré-requis techniques :

Maîtrise du traitement du signal audio
Maîtrise de langages de programmation (Python, si possible C/C++)
Fortes connaissances en Intelligence Artificielle (DNN sous Keras/Tensorflow)

§ Aptitudes personnelles :

Forte sensibilité à l’audio
Autonomie et prise d’initiatives

Goût pour le travail en équipe.