Yutong Ban

Contact

INRIA Grenoble Rhone-Alpes
655, avenue de l’Europe
38330 Montbonnot Saint-Martin, France
Email: yutong.ban@inria.fr

Yutong Ban is now a postdoctoral researcher attached with both MIT CSAIL Distributed Robotics Lab (DRL) and Massachusetts General Hospital (MGH) Surgical Artificial Intelligence and Innovation Laboratory (SAIIL).

He was a Ph.D. student in PERCEPTION team at INRIA from 10/2015 to 05/2019, directed by Dr. Radu Horaud and Dr. Xavier Alameda-Pineda. He received his Engineer’s degree in computer vision from Télécom Saint Etienne (France) in 2015. He received his Bachelor’s degree in telecommunication engineering from Xidian University, China in 2013. He’s currently conducting his research on audio-visual speaker tracking and diarization.

His research interests include probabilistic modeling, variational inference, audio-visual tracking and diarization, visual servoing , and stereo-depth fusion.

His publication list can be found in publications and Google scholar.

Projects

	Tracking Multiple Audio Sources with the Von Mises Distribution and Variational EM Y. Ban, X. Alameda-Pineda, C. Evers, and R. Horaud IEEE Signal Processing Letters, 2019 [page] [pdf]
	Variational Bayesian Inference for Audio-Visual Tracking of Multiple Speakers Y. Ban, X. Alameda-Pineda, L. Girin, and R. Horaud IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020 [page] [pdf]
	Online Localization and Tracking of Multiple Speakers in Reverberant Environments X. Li , Y. Ban, L. Girin, X. Alameda-Pineda, and R. Horaud (* indicates the equally contributed authors)** IEEE Journal on Selected Topics in Signal Processing, 2019 [page] [pdf]
	Tracking a Varying Number of People with a Visually-Controlled Robotic Head Y. Ban, X. Alameda-Pineda, F. Badeig, S. Ba and R. Horaud IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Sep 2017, Vancouver, Canada [page] [pdf] (JTCF Novel Technology Paper Award Finalist) [page]
	Tracking Multiple Persons Based on a Variational Bayesian Model Y.Ban, S. Ba, X. Alameda-Pineda and R. Horaud ECCV Workshops, Oct 2016, Amsterdam, Netherlands [page] [pdf]

Publications (Google Scholar)

Journal papers and submissions

Y. Ban, X. Alameda-Pineda, C. Evers, and R. Horaud. “Tracking Multiple Audio Sources with the Von Mises Distribution and Variational EM”. IEEE Signal Processing Letters, 2019. [page] [pdf]
Y. Ban, X. Alameda-Pineda, L. Girin, and R. Horaud. “Variational Bayesian Inference for Audio-Visual Tracking of Multiple Speakers”. IEEE Transactions on Pattern Analysis and Machine Intelligence (Submitted September 2018)(Accepted November 2019). [page] [pdf]
X. Li *, Y. Ban*, L. Girin, X. Alameda-Pineda, and R. Horaud. “Online Localization and Tracking of Multiple Speakers in Reverberant Environments”. IEEE Journal on Selected Topics in Signal Processing, 2019 (* indicates the equally contributed authors). [pdf]

Conference and workshop papers

X. Li, Y. Ban, L. Girin, X. Alameda-Pineda and R. Horaud. “A cascaded multiple-speaker localization and tracking system” International Workshop on Acoustic Signal Enhancement (IWAENC), LOCATA Satellite Workshop, Sep 2018, Tokyo, Japan [pdf]
Y. Ban, X. Li, X. Alameda-Pineda, L. Girin and R. Horaud “Accounting for Room Acoustics in Audio-Visual Multi-Speaker Tracking” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Apr 2018, Calgary, Alberta, Canada. [pdf]
Y. Ban, L. Girin, X. Alameda-Pineda, and R. Horaud “Exploiting the Complementarity of Audio and Visual Data in Multi-Speaker Tracking” ICCV Workshop on Computer Vision for Audio-Visual Media, Oct 2017, Venezia, Italy. [pdf]
Y. Ban, X. Alameda-Pineda, F. Badeig, S. Ba and R. Horaud “Tracking a Varying Number of People with a Visually-Controlled Robotic Head” IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Sep 2017, Vancouver, Canada. (IROS’17: JTCF Novel Technology Paper Award Finalist) [page] [pdf]
Y.Ban, S. Ba, X. Alameda-Pineda and R. Horaud “Tracking Multiple Persons Based on a Variational Bayesian Model”. ECCV Workshops, Oct 2016, Amsterdam, Netherlands. [page] [pdf]

Ph.D. Thesis

Audio-Visual Multiple-Speaker Tracking for Robot Perception (May 2019) [pdf]