Les Usages Mobiles de l’information scientifique dans l’enseignement supérieur et la recherche

plantnet Zenith participe à la journée sur “Les Usages Mobiles de l’information scientifique dans l’enseignement supérieur et la recherche”. Alexis Joly présentera la “Mobilisation des sciences participatives et numériques au service de la découverte du végétal. Un exemple au travers du projet Pl@ntNet” le 21 novembre à 15h05, dans la session “Applications scientifiques mobiles : présentations et retours d’expériences”.

Titre : Mobilisation des sciences participatives et numériques au service de la découverte du végétal. Un exemple au travers du projet Pl@ntNet

Résumé : Connecter spécialistes et amateurs de botanique est l’un des objectifs de Pl@ntNet, un réseau collaboratif organisé autour d’une plateforme logicielle web et mobile, auquel différentes structures de recherches et associatives apportent leur expertise en matière de botanique, d’informatique et d’animation de réseaux. Le projet vise à assister les naturalistes débutants ou confirmés, pour identifier les plantes qu’ils rencontrent sur le terrain grâce à des supports mobiles d’analyse d’images, afin de partager ces observations au sein d’un vaste réseau humain. Liens web : [http://www.plantnet-project.org/] [https://itunes.apple.com/fr/app/pla…]

Plus d’informations sur cette journée :


Stage Master 2 : Recommandation diversifiée et multi-site

Stage Master 2 Informatique

Recommandation diversifiée et multi-site

De nouvelles applications et pratiques sont apparues dans le contexte d’internet, et ont transformé les utilisateurs en producteurs et consommateurs massifs de données (big data). En même temps, cela permet de définir des profils utilisateurs plus précis en fonction des données stockées par chaque utilisateur. Ces profils peuvent être exploités afin d’améliorer la qualité des résultats aux requêtes soumises par les utilisateurs. Dans ce contexte, la recherche et recommandation distribuée [1,2,4] est utilisé comme une solution pour traiter et permettre le partage de ce grand volume de données, en exploitant les profils des utilisateurs. Dans ce stage, nous nous concentrons sur la recherche et la recommandation dans le cadre de communautés de scientifiques et/ou de communautés génériques. En particulier, nous nous focalisons sur les approches multi-sites où chaque site regroupe un ensemble d’utilisateurs avec des profils variés.

Le stagiaire devra proposer et implémenter un algorithme de recommandation distribué pour les architectures multi-sites. À partir d’une requête a mots clé, l’algorithme distribué recommande des items (documents, images, etc), à partir de plusieurs sites et en fonction des profils utilisateurs. Pour améliorer les résultats de la recommandation, au sein de cet algorithme distribué, une fonction de scoring [3] spécifique est utilisée pour permettre la recommandation diversifiée, et prendre en compte la diversité des profils des utilisateurs.

Pour valider l’algorithme proposé le stagiaire aura pour mission de réaliser un ensemble de simulations et développer un outil dans le cadre du multi-sites, afin d’évaluer la qualité de l’approche. Le développement se fera en JAVA. L’étudiant pourra travaillera sur les plateformes Grid’5000, Amazon S3 ou Microsoft Azure.

Ce stage s’inscrit dans le projet Mastodons, au sein de l’équipe Zenith au Lirmm.

Plus précisément le stagiaire aura pour mission :

  1. rédaction d’un état de l’art sur la recommandation distribuée
  2. proposition d’un algorithme
  3. validation:réalisation des simulations, conception et modélisation du logiciel, etc
  4. rédaction du rapport du stage

Profil de candidats recherchés :

  • Goût prononcé pour le développement
  • Aimer le travail en équipe
  • Autonomie
  • Intérêt pour le domaine des sciences

Niveau : Master 2 Informatique

Lieu : Lirmm, 95, rue de la Galéra, Montpellier

Contact : Esther Pacitti (pacitti@lirmm.fr)

Durée: de 4 à 6 mois

Références Majeurs

1. E. Pacitti, R. Akbarinia, Manal El-Dick. P2P Techniques for Decentralized Applications, Morgan & Claypool Publishers, 2012, (104 pages).

2. F. Draidi, E. Pacitti, B. Kemme. P2Prec: a P2P Recommendation System for Large-scale Data Sharing. Journal of Transactions on Large-Scale Data and Knowledge-Centered Systems 3: 87-116, Springer, 2011.

3. M. Servajean, E. Pacitti, S. Amr-Yahia, P. Neveu. Profile diversity in search and recommendation, 4th Int. Workshop on Social Recommender Systems, WWW (Companion Book) 973-980, 2013.

4. F. Draidi, E.Pacitti, D. Parigot, G. Verger: P2Prec: a Social-Based P2P Recommendation System, Int. Conf. on Information and Knowledge Management (CIKM), 2593-2596,Glasgow, United Kingdom, 2011.

IBC seminar: Marta Mattoso,”Algebraic Dataflows for Big Data Analysis”, Nov. 5, 11am.

ibc_logo7_small Séminaire IBC du WP5

Mardi 5 novembre, 11h
Salle 127, Batiment Galera

Algebraic Dataflows for Big Data Analysis
Marta Mattoso
UFRJ, Rio de Janeiro

Analyzing big data requires the support of dataflows with many activities to extract and explore relevant information from the data. Recent approaches such as Pig Latin propose a high-level language to model such dataflows. However, the dataflow execution is typically delegated to a MapReduce implementation such as Hadoop, which does not follow an algebraic approach, thus it cannot take advantage of the optimization opportunities of PigLatin algebra. In this talk, we discuss some issues of hadoop and propose an approach for big data analysis based on algebraic workflows, which yields optimization and parallel execution of activities and supports user steering using provenance queries. We illustrate how a big data processing dataflow can be modeled using the algebra. Through an experimental evaluation using real datasets and the execution of the dataflow with Chiron, an engine that supports our algebra, we show that our approach yields performance gains of up to 20 % using algebraic transformations in the dataflow and up to 40 % of time saved on a user steering scenario.

Ingénieur R&D pour le projet Triton

Conception d’un middleware collaboratif de réseaux sociaux pour les entreprises


Cette offre de poste d’ingénieur de R&D est liée à la création d’un laboratoire commun entre l’équipe de recherche Zenith et une jeune entreprise innovante Beepeers (beepeers.com) crée en 2011. Beepeers a développé une plateforme pour aider les entreprises à développer des réseaux sociaux et des applications sociales sur mobile, tablette et web. Depuis 2013, la société Beepeers déploie des projets commerciaux de réseaux sociaux métiers, spécifique à une entreprise, ou à une communauté ciblée. Beepeers souhaite dès à présent préparer les futurs évolutions et le déploiement à grande échelle (multi-cloud) de sa plateforme grâce à un projet de R&D commun avec Inria.


L’objectif de ce programme de R&D sera la création d’un middleware collaboratif de réseaux sociaux pour les entreprises pour:

  • Faciliter et automatiser le déploiement sur diffèrent Cloud (public ou privé)
  • Gérer les mises à jour et les ajouts de nouvelles fonctionnalité  de tous les sites et différentes instances
  • Gérer avec efficacité et souplesse toutes les informations issu d’un réseaux sociaux
  • Échanger les données métier et les services d’un réseau social à l’autre

Ce middleware de collaboration a pour vocation de permettre l’échange de données, d’information et de services avancés entre les différentes instances de réseaux sociaux d’entreprise. Ce projet est un projet collaboratif pour mettre en œuvre, sur un horizon de 2 ans la future architecture de la solution Beepeers.

Descriptif du poste

Le laboratoire commun s’appuiera sur l’expertise Inria dans la conception et la réalisation du prototype de recherche « SON » (cf. www-sop.inria.fr/teams/zenith/SON/), un middleware collaboratif d’échange de données, ainsi que sur les travaux R&D initiés par Beepeers sur « la contextualité des services Internet » pour réaliser ce middleware de collaboration de réseaux sociaux. SON est une plate-forme de développement pour les applications collaboratives qui combine trois paradigmes puissants : programmation par composant, les web services et le programmation distribuée décentralisée (en Pair à Pair).

L’ingénieur sera amené à :

  • adapter aux contraintes du projet de R&D  le modèle de développement sous-jacent à SON, à base de composants et de services en architecture décentralisée. Le modèle de développement proposé (programmation concurrente déclarative), permet de faire évoluer et d’ajouter très simplement des nouveaux services avancés (de collaboration de données).
  • de mettre en place à chaque instant des mécanismes d’architecture décentralisé, permettant le passage à l’échelle des solutions proposées. Ces mécanismes pourront s’appuyer sur les standards de stockage de données du type NoSQL pour les réseaux sociaux.
  • concevoir pour les besoins spécifiques du middleware, des algorithmes efficaces de propagation, de diffusion, d’échange d’informations.
  • de permettre l’accès à des services métiers ou techniques localisés sur un cloud distant sans effort.

Profil recherché

  • Ingénieur (Bac + 5) avec 2 ou 3 ans expérience ou Thèse sur la thèmatique
  • Compétences (2 à 3 trois ans d’expériences) en développement d’architecture logiciel en Java, à base de composant (ex. spring) ;
  • Expérience dans la gestion de bases de données, de type NoSQL (ex.Hbase, MongoDB, Cassandra etc)  ;
  • Goût du travail en équipe et en mode projet.

Perspectif du poste

La mise en œuvre  de cette nouvelle architecture permettra à l’ingénieur d’acquérir et d’approfondir un ensemble de concepts et technologies de l’informatique de demain. Puis un prolongement du poste au siens de la société Beepeers est fortement envisagé et souhaitable. Enfin en vue des derniers résultats (succès commerciale de la solution Beeppeers), la société Beepeers va certainement connaitre un fort taux de croissance.

Dossier de canditature

Merci de transmettre très rapidement votre curriculum vitae et une lettre de motivation à Didier.Parigot@inria.fr.


Salaire mensuel brut proposé :

Salaire : Entre 2600 et 2900 € bruts mensuel selon expérience et niveau de diplôme dans le domaine.

Lieu de travail :

Centre de recherche Inria Sophia Antipolis – Méditerranée

2004 route des lucioles – BP 93 – 06902 Sophia Antipolis cedex

Date de prise de fonction : Le plus rapidement possible

Durée du contrat :   1 an

Diplôme et expérience requis :  

Bac +5 (École d’ingénieur/Master 2) ou Thèse
Expérience professionnelle significative d’au moins 2 ans dans le domaine concerné.

Zenith meeting on Oct 15. 2013

teambuilder1Next Zenith team meeting will be held at at Golf de Coulondres (http://www.coulondres.com/Contact) on Oct. 15, 2013.

We will have the following schedule:


9h30 Coffee
10h00 Patrick: “About CoherentPaaS and other projects
10h30 Florent: “On data mining @Zenith
11h00 Reza: “Probabilistic and Big data Management in Zenith
11h30 Esther: “From peer-to-peer to multisite  diversified recommendation


14h00 Didier: “”
14h30 Tristan: “Chiaroscuro: overview
15h00 Alexis: “”
15h30 Coffee break
16h00 discussion
16h30 end

Fête de la science : participation de Zenith au village des sciences de Genopolys (3 jours).

300_298_fete-de-la-science-2012Le Lirmm et Inria tiendront un stand au village des sciences de Genopolys pour la fête de la science. Rendez-vous  jeudi 10 et vendredi 11 octobre pour les publics scolaires, ainsi que samedi 12 octobre pour un accueil tout public. Au programme : films, ateliers (bouteilles et océans, mallette d’activités déconnectées,…) et le jeu Datagramme !

IBC seminar: Alexis Joly,”Pl@ntnet: interactive plant identification and collaborative information system.”, Sept 20, 2pm.

plantnet (1)Alexis Joly,
Zenith team, INRIA and LIRMM, France.

Pl@ntnet: interactive plant identification and collaborative information system.
Speeding up the collection and integration of raw botanical observation data is a crucial step towards a sustainable development of agriculture and the conservation of biodiversity. Initiated in the context of a citizen sciences project, the main contribution of Pl@ntNet (http://www.plantnet-project.org) is an innovative collaborative workflow focused on image-based plants identification as a mean to enlist new contributors and facilitate access to botanical data. Since 2010, hundreds of thousands of geo-tagged and dated plant photographs were collected and revised by hundreds of novice, amateur and expert botanists of a specialized social network. An image-based identication tool – available as both a web and a mobile application – is synchronized with that growing data and allows any user to query or enrich the system with new observations. An important originality is that it works with up to ve dierent organs contrarily to previous approaches that mainly relied on the leaf. This allows querying the system at any period of the year and with complementary images composing a plant observation. Extensive experiments of the visual search engine as well as system-oriented and user-oriented evaluations of the application show that it is already very helpful to determine a plant among hundreds or thousands of species. At the time of writing, the whole framework covers about half of the plant species living in France (3776 species), which already makes it the widest existing automated identication tool.

Zenith seminar: Irina Alles,”Time Series Clustering in the Field of Agronomy”, Sept 13, 2pm.

auxanometer-measure-growth-rateIrina Alles will present her work on phenotypic data clustering on september 13, at 2pm (Galera 127).

Title: Time Series Clustering in the Field of Agronomy

Abstract: This work is realised in the field of agronomy, more precisely in the domain of plant phenotyping. Phenotyping studies the relationship between the genotype (genetic) and phenotype (behavior) of plants in several environmental scenarios. In order to understand certain plant characteristics it compares several genetic  varieties of plants in the same environment. The PhenoArch platform is a phenotyping platform enabling the monitoring of certain characteristics for more
than 1000 plants. The obtained data consists of time series of plant traits such as growth, biomass and transpiration.
The goal of this work is to ease the analysis of the obtained plant time series.
Clustering is a widely used method in the data mining domain to divide a 
dataset into natural appearing groups, it has demonstrated its benefit in a variety of fields. We will present how this technique can be applied in the field of  phenotyping and its potential to ease further investigations.

Post-doc offer: Optimizing the Cloud for Data Mining

cloud_dataTopic: Cloud platforms rely on technologies and architectures that handle massive distribution of data and computation. They are usually provided and maintained by major companies (Amazon, Google, Yahoo, Microsoft). Hadoop is an open source platform written in Java that allows data management and processing in a cloud environment. It is maintained by the Apache Foundation and implements the Google MapReduce technology. Today, most solutions for data mining in the cloud are straightforward implementations of existing algorithms in the selected cloud programming language. A basic illustration is the implementation for MapReduce of the aPriori algorithm which performs successive counting steps that rely on the native cloud primitives.

However, not all algorithms can have such straightforward implementations.
This work aims at focusing on a set of major data mining algorithms and optimizing Hadoop for them. Such algorithms have to be useful for different applications (e.g., finding frequent itemsets and sequential patterns, clustering, etc.).

Missions and activities:

Your mission will consist in:

  • Proposing efficient algorithms for a set of well known data mining problems (frequent itemsets, clustering) that require specific adaptation to the cloud.
  • Implementing the proposed algorithms on top of Hadoop.
  • Performing experiments over real scientific data in an experimental platform for large scale parallel and distributed systems, to evaluate the performance of the proposed algorithms for the tackled data mining problems.

Skills and profiles:

– Strong knowledge of statistics.
– Good proficiency in English.
– Good programming skills in Java.
– A Ph.D. in computer science or mathematics.

Duration, Location and Salary:

Duration is 18 months and the location is Montpellier.

The position should be fulfilled by September 2013 (however, a starting date by December 2013 may be negotiated). The position might be extended to 24 months in total (depending on the evolution of the fundings).

The net salary is 2138 Euros and includes social security (gross salary is € 2620.84)


This post-doc will take place in the Zenith team of INRIA. It is funded by the Datascale project that is a project funded by the French Government, and involves industrial and academic partners (Bull, Armadillo, ActiveEon, Twenga, XediX, CEA, INRIA, IPGP). The project aims at developing technologies for Big Data.

The Zenith project-team of INRIA, headed by Patrick Valduriez, aims to propose new solutions related to scientific data and activities. Our research topics incorporate the management and analysis of massive and complex data, such as uncertain data, in highly distributed environments.

Our team is located in Montpellier that is a very active town located in south of France. It gathers together major research Labs, that work on environment and health, such as INRA, CIRAD or IRD. Generally speaking, these scientific activities generate extremely large amounts of complex data that need to be managed and analyzed.


  • Patrick Valduriez
  • Florent Masseglia
  • Reza Akbarina


Please send your CV to reza Akbarinia (reza.akbarinia@inria.fr) and/or Florent Masseglia (florent.masseglia@inria.fr).

Séminaire Zenith: Mohamed Reda Bouadjenek, “Approaches and Algorithms for Information Retrieval Based On Social Network Analysis/Mining”, 5 juillet, 11h00.

social-recommendationSeminaire Zenith

5/7/2013, 11h salle 127 Galera

Approaches and Algorithms for Information Retrieval Based On Social Network Analysis/Mining.

Mohamed Reda Bouadjenek – Laboratoire PRiSM, Université de Versailles-Saint-Quentin-en-Yvelines

Abstract. The Web 2.0 has introduced a new freedom for the user in his relation with the Web by facilitating his interactions with other users who have similar tastes. Social platforms and networks are certainly the most adopted technologies in this new era. These platforms allow to interact with peers, exchange messages, share resources, etc. These so called “collaborative tasks” result in huge quantities of generated data. From the research perspective, this brings important and interesting challenges for many research fields.

In such a context, a crucial problem is to enable users to find relevant information with respect to their interests and needs. This task is commonly referred to as Information Retrieval (IR). However, classic models of IR don’t consider the social dimension of the Web.  Consequently, these classic models of IR and even the IR paradigm should be adapted to the socialization of the Web, in order to fully leverage the social context that surround web pages and users. This talk presents three methods as an illustration of our contributions in this direction on: (i) query expansion, (ii) documents modeling, and (iii) results ranking. All the presented approaches are based on social annotations as source of social information, which are extracted from folksonomies.

