Thèse CIFRE Ina et Inria-Zenith: “Apprentissage interactif de représentations multicouche à large échelle pour la création de bases de connaissances dans le contexte de la valorisation d’archives”

Sujet

L’accroissement du nombre de programmes audiovisuels à archiver impose des contraintes de productivité nouvelles sur la documentation. Le développement d’outils automatiques et semi-automatiques pour assister le travail des documentalistes est désormais indispensable pour exploiter au mieux la très grande quantité d’information disponible. Ces dernières années, sont ainsi apparues des techniques d’indexation et d’analyse de contenu visuel ou sonore, permettant la modélisation d’information de haut niveau, comme par exemple : des visages, des locuteurs, des monuments, des logos, des décors, des noms de chansons, etc. La modélisation consiste à construire des représentations visuelles des entités avec lesquelles on désire annoter des archives multimédia. Les processus de modélisation sont basés sur des méthodes d’apprentissage non-supervisées, supervisées, ou parfois pauvrement supervisées.

 

Avec l’essor des réseaux de neurones convolutionnels durant ces dernières années, les représentations visuelles ad-hoc (“hand-crafted”) sont progressivement remplacées par des représentations multicouche apprises à partir de données d’apprentissage dédiées à la tâche d’annotation visée. Ces stratégies d’apprentissage supervisées allant du signal (pixels) jusqu’aux classes ou entités dans un même formalisme ont permis d’atteindre des performances très importantes pour la reconnaissances d’objets dans les images.

 

Ces méthodes ont toutefois deux limitations majeures pour envisager une exploitation dans le contexte de la documentation professionnelle à large échelle. Premièrement, elles fonctionnent en monde fermé c’est à dire avec un nombre fixe de classes préalablement connues. Dans le cadre de l’Ina, il est essentiel de fonctionner en monde ouvert car à chaque instant :

  • des utilisateurs peuvent vouloir créer de nouvelles classes,
  • le système de prédiction peut être sollicité pour des images n’appartenant pas à la base d’apprentissage, ce qui est essentiel à détecter.

 

Deuxièmement, elles ne permettent pas d’envisager efficacement des stratégies d’apprentissage actif et incrémental du type bouclage de pertinence ou propagation d’annotation. Hors ces modes de fonctionnement dynamiques et interactifs sont indispensable à une mise en oeuvre métier. Il y au sein de l’INA des dizaines de documentalistes qui ont pour mission d’annoter les documents vidéos. Il est essentiel que ces documentalistes puissent interagir avec le système de reconnaissance et que celui-ci soit suffisamment réactif.

 

Plus formellement, le coeur de la thèse sera de s’attaquer aux problèmes d’apprentissage actif multilabel et de détection de la nouveauté dans le contexte de représentations visuelles multicouche. Cela nécessitera de résoudre des verrous liés au passage à l’échelle des méthodes de prédiction à partir de modèles profond.

Encadrement

L’encadrement universitaire sera assuré par Dr. Alexis Joly (HDR). Les acteurs de cette thèse, l’équipe Zénith de l’INRIA et l’INA ont une expérience solide dans l’analyse de données multimédia et le passage à l’échelle et apporteront des compétences complémentaires sur le sujet. Les travaux de Zénith s’articulent principalement autour de la gestion, l’analyse et de la recherche d’informations dans des données hétérogènes de très grande taille.

Au sein de l’INA, il rejoindra le département de Recherche et de l’Expérimentation. Le thésard travaillera en collaboration avec un chercheur permanent Dr. Olivier Buisson et un doctorant Valentin Leveau.

Candidature

Avant le 15 septembre 2016, envoyer par email et en PDF à l’adresse suivante : thcand@ina.fr, les documents suivants :

  • CV,
  • lettre de motivation ciblée sur le sujet,
  • au moins deux lettres de r commandation,
  • relevés de notes + liste des enseignements suivis en M2 et en M1.

Profil du candidat

  • Diplôme : master 2 en informatique ou école d’ingénieur.
  • De bonnes connaissances et une pratique en indexation par contenu (visuel et sonore) et machine learning, ainsi que la maîtrise de la programmation C/C++.
  • Bon niveau d’anglais.

Informations sur le poste

  • Début : deuxième semestre 2016
  • Salaire : 35 202€ bruts sur 13 mois.
  • Lieu : Ina (Institut national de l’audiovisuel) à Bry-sur-Marne.
  • Le temps de travail devrait être partagé de la manière suivante : 75% Ina et 25% Inria.

Permanent link to this article: https://team.inria.fr/zenith/these-cifre-ina-et-inria-zenith-apprentissage-interactif-de-representations-multicouche-a-large-echelle-pour-la-creation-de-bases-de-connaissances-dans-le-contexte-de-la-valorisation-darchives/

Séminaire Zenith : Didier Parigot “Une fabrique logicielle pour la construction automatique de réseaux sociaux dédiés” 15 mars 2016

Une fabrique logicielle pour la construction automatique de réseaux sociaux dédiés

Didier Parigot, Benjamin Billet et David Fernandez

Mardi 15 mars à 15h, Bâtiment 4, salle des séminaires

En partenariat avec la startup BEEPEERS (http://www.beepeers.com/), nous concevons une fabrique logicielle pour le développement rapide de réseaux sociaux spécialisés (RSS), à destination de communautés ciblées (p. ex. fédérées autour d’un évènement ou d’une activité sportive). Du fait de la diversité de ces communautés en matière de vocabulaire et d’interaction, cette fabrique a pour objectif de construire rapidement et simplement de nouveaux réseaux dédiés. Cette fabrique opère par spécialisation d’un réseau social générique, à l’aide de mécanismes de sous-typage et de configuration des comportements, sans qu’il soit nécessaire de réaliser un nouveau travail de développement.

Cette plateforme exploite les bases de données graphe (BDG), de façon à implémenter efficacement des RSS manipulant des données connectées (p. ex. liste d’amis, de publications ou d’activités). Par exemple, le typage et de sous-typage des sommets et des arcs est requis pour faciliter la réutilisation des modèles de données, tout comme la recherche de motifs dans le voisinage d’un sommet (p. ex. les amis en communs).

Cependant, les BDG destinées au monde industriel ne répondent pas à ces besoins, ou partiellement. Pour résoudre ce problème, nous introduisons une couche logicielle permettant d’abstraire les BDG existantes et de fournir les fonctionnalités nécessaires pour le développement rapide de RSS. En pratique, cette couche logicielle permet à BEEPEERS de développer rapidement de nouveaux RSS à la demande, par simple configuration des schémas et des requêtes à appliquer sur la BDG. De plus, certains traitements complexes d’analyse de données requièrent une spécialisation plus fine que la simple réécriture de motifs. C’est notamment le cas pour les composants logiciels chargés de recommander du contenu aux utilisateurs.

Pour la réalisation de telles analyses, nous avons conçu un langage de Workflow qui permet de décrire très simplement (description en XML) les algorithmes classiques de recommandation sur des données représentées sous la forme d’un graphe. Notre modèle permet une exécution en parallèle et en flux continue (en pipeline).

Permanent link to this article: https://team.inria.fr/zenith/seminaire-zenith-une-fabrique-logicielle-pour-la-construction-automatique-de-reseaux-sociaux-dedies-didier-parigot/

Digital Agriculture: Zenith at the Paris International Agricultural Show (2016 edition)

Salon-International-de-lAgriculture-2014

Nadine Hilgert and Florent Masseglia gave a talk (in French) at the Paris International Agricultural show in March 2016, on the theme of “Big Data Analytics” for digital agriculture. It is about data mining (data mining), data integration, and their applications in agriculture.


The video is taken from the INRA site dedicated to the meeting : Agriculture Innovation - 2025.
 

Permanent link to this article: https://team.inria.fr/zenith/digital-agriculture-zenith-at-the-paris-international-agricultural-show-2016-edition/

Beepeers signe l’App mobile du Festival des Jeux de Cannes

La start-up de Sophia Antipolis, avec qui Zenith collabore de façon étroite dans le cadre du laboratoire commun (i-lab) Triton a été retenue par le Palais des Festivals pour réaliser l’App FIJ, une application mobile dédiée aux quelque 150.000 passionnés du Festival International des Jeux pour qu’ils puissent s’informer et communiquer entre eux en temps réel. Cela à travers l’application sur smartphone, mais également tous les supports digitaux de promotion : sites web, écrans sur site, social wall et réseaux sociaux.

Beepeers_AppFIJ_500x245

Pour plus de détails lire l‘article paru dans WebTimeMedias.

Permanent link to this article: https://team.inria.fr/zenith/beepeers-signe-lapp-mobile-du-festival-des-jeux-de-cannes/

PhD Position “Validation of large-scale complex data through active and socialized crowdsourcing”

Advisors: Alexis Joly & Esther Pacitti

Contact: contact-recrutement-these@inria.fr

Citizen science has the potential to leverage the interest and talent of non-specialists to improve science. In a typical citizen science/crowdsourcing environment, the contributors label items. When there are few labels (e.g. how oval is the shape of a galaxy), it is straightforward to train contributors by giving a few examples with known answers. Current research in crowdsourcing usually focus on such micro-tasking, designing algorithms for solving optimization problems from the job requester’s perspective and with simple models of worker behavior. However, the participants are people with varying expertise, skills, interests, incentives as well as rich capabilities of learning and collaborating, in particular in the context of social networks. The goal of this PhD will be to study more nuanced crowdsourcing approaches that place special emphasis on the participants, in particular through assignment and recommendation algorithms allowing to progressively expand the expertise and fields of interest of the users. In particular, we will study domain-specific applications that involve complex classification tasks with large number of classes and expert annotations (for instance plant species recognition). Classical crowdsourcing algorithms based on the Bayesian inference of the most probable labels according to the confusion matrix of each worker are particularly inefficient in such contexts. The problem is that the very high number of classes makes it impossible to train a complete confusion matrix for each participant, as it would require them to answer to millions of problems. Furthermore, the brute-force approach consisting in a quiz across the full list of classes is not tractable for most of the contributors who are competent only on a fraction of the objects of interest. To bridge this gap, it is necessary to design new models and algorithms taking into account the need to actively and collaboratively train the users, so that they can jointly solve complex classification tasks through simple and personalized sub-problems. We will in particular start focusing on (i) automatically reducing the hypothesis space thanks to machine learning tools, (ii) actively specializing the participants on complementary subparts of the problem thanks to probabilistic models and recommendation algorithms.

References

  1. Learning from crowds, Raykar, V. C. et al., The Journal of Machine Learning Research, 2010
  2. Community-based bayesian aggregation models for crowdsourcing, Venanzi, M. et al., WWW’2014
  3. Roy, S. B., Lykourentzou, I., Thirumuruganathan, S., Amer-Yahia, S., & Das, G. (2015). Task assignment optimization in knowledge-intensive crowdsourcing.The VLDB Journal, 1-25.

Permanent link to this article: https://team.inria.fr/zenith/phd-position-validation-of-large-scale-complex-data-through-active-and-socialized-crowdsourcing/

Zenith/Virtual Plant seminar: Maximilien Servajean “Training the Crowd in Crowdsourcing” 18 jan. 2016

Zenith/Virtual Plant, common seminar.
Training the Crowd in Crowdsourcing.
January 18, at 1.30pm.
Pl@ntNet is a large-scale innovative participatory sensing platform relying on image-based plants identification as a mean to enlist non-expert contributors and facilitate the production of botanical observation data. The iOs and Android mobile applications allowing to identify plants and share observations have been downloaded by more than 350K users in 170 countries and counts up to ten thousands users per day. Nowadays, the whole collection contains more than 180K images covering about 7K plant species (mainly in West Europe). However there is still a need for human validation and identification. Crowdsourcing has shown a lots of interests in the recent years. In such approaches, users are ask to resolve micro-tasks which results are then aggregated using mathematical tools in order to create knowledge. Unfortunately, asking a large set of users to identify some random plants is merely impossible. In this presentation, I will show some preliminary works we are doing to combine automatic identification tools and crowdsourcing in order to identify the maximum possible number of plants.

Permanent link to this article: https://team.inria.fr/zenith/zenithvirtual-plant-common-seminar-maximilien-servajean-training-the-crowd-in-crowdsourcing/

AFRICOMM 2015 Keynote Speaker Patrick Valduriez on “Cloud and Big Data in developing countries”

Patrick Valduriez will be a keynote speaker at AFRICOMM 2015, the Seventh EAI International Conference on e-Infrastructure and e-Services for Developing Countries (December 15-16, Cotonou, Benin). In this interview, he talks about the opportunities and risks that cloud computing and big data bring to developing countries

Read more here.

Permanent link to this article: https://team.inria.fr/zenith/africomm-2015-keynote-speaker-patrick-valduriez-on-cloud-and-big-data-in-developing-countries/

MIAD seminar: Maximilien Servajean “Training the Crowd in Crowdsourcing” 7 dec. 2015

artwork-threeLes UMR EspaceDev, IATE, MISTEA et TETIS organisent le séminaire MIAD (Modèles informatiques autour de l’aide à la décision en environnement, agronomie et transformation).

Le prochain séminaire aura lieu Lundi 7 Décembre 2015  à la faculté des sciences de 11h à 12h.

Maximilien Servajean, Zenith,  présentera un exposé intitulé Training the Crowd in Crowdsourcing.

Résumé:

Pl@ntNet is a large-scale innovative participatory sensing platform relying on image-based plants identification as a mean to enlist non-expert contributors and facilitate the production of botanical observation data. The iOs and Android mobile applications allowing to identify plants and share observations have been downloaded by more than 350K users in 170 countries and counts up to ten thousands users per day. Nowadays, the whole collection contains more than 180K images covering about 7K plant species (mainly in West Europe). However there is still a need for human validation and identification. Crowdsourcing has shown a lots of interests in the recent years. In such approaches, users are ask to resolve micro-tasks which results are then aggregated using mathematical tools in order to create knowledge. Unfortunately, asking a large set of users to identify some random plants is merely impossible. In this presentation, I will show some preliminary works we are doing to combine automatic identification tools and crowdsourcing in order to identify the maximum possible number of plants.

Permanent link to this article: https://team.inria.fr/zenith/training-the-crowd-in-crowdsourcing-lundi-7-decembre-2015-a-la-faculte-des-sciences-de-11h-a-12h/

Zenith seminar: Miguel Liroz Gistau “Big Data Processing with Apache Spark” 8 dec. 2015

Multi-Objective Scheduling of Scientific Workflows in Multisite Clouds

Miguel Liroz Gistau

Zenith, Montpellier
Bat. 5. Salle 1/124: 08/12/2015, 11h

Abstract

Apache Spark is an efficient and general large-scale data processing engine. Leveraging on Hadoop’s ecosystem and with a large and active community, Spark has established itself as one of the main alternatives for big data analytics. As opposed to MapReduce, it allows the user to specify arbitrary workflows that are executed in a memory-efficient way, delivering significant performance improvements, especially for iterative algorithms. It also provides a multiple language, interactive interface and integrated libraries for SQL, machine learning, streaming and graph processing. In this talk, we describe the general architecture of the framework and its main components. In particular, we focus on the DataFrames abstraction, which brings many of the optimizations used in the database community and greatly simplifies data management. We also provide practical guidelines on how to efficiently execute our workflows in Apache Spark and present hadoop_g5k, a middleware implemented in the Zenith team that simplifies the deployment and management of Spark in big clusters of machines like Grid5000.

Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-miguel-liroz-gistau-big-data-processing-with-apache-spark-8122015-11h/

Zenith seminar: Ji Liu “Multi-Objective Scheduling of Scientific Workflows in Multisite Cloud” 8 dec. 2015

Multi-Objective Scheduling of Scientific Workflows in Multisite Clouds
Ji Liu
Zenith, MSR-Inria, LIRMM and IBC, Montpellier
Bat. 5. Salle 1/124: 08/12/2015, 10h

Abstract

The cloud emerges as an appropriate infrastructure for executing Scientific Workflows (SWfs). However, it is dicult to execute some SWfs at one cloud site because of geographical distribution of data and computing resources among different cloud sites. Therefore, the major problem is to be able to execute a SWf in a multisite cloud, while typically reducing execution time and monetary costs. In this talk, we propose a multisite SWf scheduling approach, i.e. ActGreedy, which addresses this problem. ActGreedy is based on a multi-objective cost model and a Virtual Machine (VM) provisioning algorithm, i.e. Single Site VM Provisioning (SSVP). We present an experimental evaluation, based on the execution of the SciEvol SWf, a molecular evolution reconstruction workflow, in Microsoft Azure cloud. The experiment results reveal that our scheduling approach significantly outperforms two adapted baseline algorithms (which we propose by adapting two existing algorithms). In addition, the experiments show that our cost model is accurate and that SSVP can generate better VM provisioning plans compared with an existing approach.

Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-ji-liu-multi-objective-scheduling-of-scientific-workflows-in-multisite-cloud/