IBC seminar: “Enabling Exploratory Analysis on Very Large Scientific Data” by Themis Palpanas (Univ. Paris 5), Dec 12, 2014

ibc_logo7_smallEnabling Exploratory Analysis on Very Large Scientific Data

There is an increasingly pressing need, by several applications in diverse domains, for developing techniques able to index and mine very large collections of data series. Examples of such applications come from biology, astronomy, the web, and other domains. It is not unusual for these applications to involve numbers of data series in the order of hundreds of millions to billions.

In this talk, we describe iSAX 2.0 and its improvements, iSAX 2.0 Clustered and iSAX2+, three methods designed for indexing and mining truly massive collections of data series. We show that the main bottleneck in mining such massive datasets is the time taken to build the index, and we thus introduce a novel bulk loading mechanism, the first of this kind specifically tailored to a data series index. Furthermore, we observe that in several cases scientists, and data analysts in general, need to issue a set of queries as soon as possible, as a first exploratory step of the datasets. We discuss extensions of our previous techniques that adaptively create data series indexes, and at the same time are able to correctly answer user queries.

We show how our methods allows mining on datasets that would otherwise be completely untenable, including the first published experiments to index one billion data series, and experiments in mining massive data from domains as diverse as genome sequences, entomology, and web-scale image collections.

Themis Palpanas is a professor of computer science at the Paris Descartes University, France. He received the BS degree from the National Technical University of Athens, Greece, and the MSc and PhD degrees from the University of Toronto, Canada. He has previously held positions at the IBM T.J. Watson Research Center and the University of Trento. He has also been a Visiting Professor at  the National University of Singapore, worked for the University of California, Riverside, and visited Microsoft Research and the IBM Almaden Research Center. His research solutions have been implemented in world-leading commercial data management products and he is the author of eight US patents. He is the recipient of three Best Paper awards (including ICDE and PERCOM), and the IBM Shared University Research (SUR) Award in 2012, which represents a recognition of research excellence at worldwide level. He has been a member of the IBM Academy of Technology Study on Event Processing, and is a founding member of the Event Processing Technical Society. He has served as General Chair for VLDB 2013.

Permanent link to this article: https://team.inria.fr/zenith/ibc-seminar-themis-palpanas-enabling-exploratory-analysis-on-very-large-scientific-data-dec-12-10am/

Zenith seminar: “Data Partitioning in Parallel Data Management Systems”, by Miguel Liroz, Dec 9, 2014

cloud-db1“Data Partitioning in Parallel Data Management Systems”

Miguel Liroz

Room G.227

During the last years, the volume of data that is captured and generated has exploded. Advances in computer technologies, which provide cheap storage and increased computing capabilities, have allowed organizations to perform complex analysis on this data and to extract valuable knowledge from it. This trend has been very important not only for industry, but has also had a significant impact on science, where enhanced instruments and more complex simulations call for an efficient management of huge quantities of data. Parallel computing is a fundamental technique in the management of large quantities of data as it leverages on the concurrent utilization of multiple computing resources. To take advantage of parallel computing, we need efficient data partitioning techniques which are in charge of dividing the whole data and assigning the partitions to the processing nodes. Data partitioning is a complex problem, as it has to consider different and often contradicting issues, such as data locality, load balancing and maximizing parallelism. In this thesis, we study the problem of data partitioning, particularly in scientific parallel databases that are continuously growing and in the MapReduce framework. In the case of scientific databases, we consider data partitioning in very large databases in which new data is appended continuously to the database, e.g. astronomical applications. Existing approaches are limited since the complexity of the workload and continuous appends restrict the applicability of traditional approaches. We propose two partitioning algorithms that dynamically partition new data elements by a technique based on data affinity. Our algorithms enable us to obtain very good data partitions in a low execution time compared to traditional approaches. We also study how to improve the performance of MapReduce framework using data partitioning techniques. In particular, we are interested in efficient data partitioning of the input datasets to reduce the amount of data that has to be transferred in the shuffle phase. We design and implement a strategy which, by capturing the relationships between input tuples and intermediate keys, obtains an efficient partitioning that can be used to reduce significantly the MapReduce’s communication overhead.

Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-miguel-lirozdata-partitioning-in-parallel-data-management-systems-dec-9-11-am/

Séminaire du pôle “Données Connaissances”: “New Perspectives in Social Data Management “, Sihem Amr-Yahia (LIG), 29 novembre 2013

social_dataSéminaire du Pole Données et Connaissances
 
Date: 29/11 à 11h salle de séminaires 127 (Galera).
 

New Perspectives in Social Data Management 

by Sihem Amer-Yahia Abstract: The web has evolved from a technology platform to a social milieu where factual, opinion and behavior data interleave. A number of social applications are being built to analyze and extract value from this data, encouraging us to adopt a data-driven approach to research. I will describe a perspective on why and how social data management is fundamentally different from data management as it is taught in school today. More specifically, I’ll talk about data preparation, data exploration  and application validation. This talk is based on published and ongoing work with colleagues atLIG, UT Austin, U. of Trento, U. of Tacoma, and Google Research.

 
Sihem Amer-Yahia is DR1 CNRS at LIG in Grenoble. 

Permanent link to this article: https://team.inria.fr/zenith/seminaire-du-pole-donnees-connaissances-29-novembre-a-11h/

Les Usages Mobiles de l’information scientifique dans l’enseignement supérieur et la recherche

plantnet Zenith participe à la journée sur “Les Usages Mobiles de l’information scientifique dans l’enseignement supérieur et la recherche”. Alexis Joly présentera la “Mobilisation des sciences participatives et numériques au service de la découverte du végétal. Un exemple au travers du projet Pl@ntNet” le 21 novembre à 15h05, dans la session “Applications scientifiques mobiles : présentations et retours d’expériences”.

Titre : Mobilisation des sciences participatives et numériques au service de la découverte du végétal. Un exemple au travers du projet Pl@ntNet

Résumé : Connecter spécialistes et amateurs de botanique est l’un des objectifs de Pl@ntNet, un réseau collaboratif organisé autour d’une plateforme logicielle web et mobile, auquel différentes structures de recherches et associatives apportent leur expertise en matière de botanique, d’informatique et d’animation de réseaux. Le projet vise à assister les naturalistes débutants ou confirmés, pour identifier les plantes qu’ils rencontrent sur le terrain grâce à des supports mobiles d’analyse d’images, afin de partager ces observations au sein d’un vaste réseau humain. Liens web : [http://www.plantnet-project.org/] [https://itunes.apple.com/fr/app/pla…]

Plus d’informations sur cette journée :

http://doccitanist.lirmm.fr/spip.php?article237

Permanent link to this article: https://team.inria.fr/zenith/les-usages-mobiles-de-linformation-scientifique-dans-lenseignement-superieur-et-la-recherche/

Stage Master 2 : Recommandation diversifiée et multi-site

Stage Master 2 Informatique

Recommandation diversifiée et multi-site

De nouvelles applications et pratiques sont apparues dans le contexte d’internet, et ont transformé les utilisateurs en producteurs et consommateurs massifs de données (big data). En même temps, cela permet de définir des profils utilisateurs plus précis en fonction des données stockées par chaque utilisateur. Ces profils peuvent être exploités afin d’améliorer la qualité des résultats aux requêtes soumises par les utilisateurs. Dans ce contexte, la recherche et recommandation distribuée [1,2,4] est utilisé comme une solution pour traiter et permettre le partage de ce grand volume de données, en exploitant les profils des utilisateurs. Dans ce stage, nous nous concentrons sur la recherche et la recommandation dans le cadre de communautés de scientifiques et/ou de communautés génériques. En particulier, nous nous focalisons sur les approches multi-sites où chaque site regroupe un ensemble d’utilisateurs avec des profils variés.

Le stagiaire devra proposer et implémenter un algorithme de recommandation distribué pour les architectures multi-sites. À partir d’une requête a mots clé, l’algorithme distribué recommande des items (documents, images, etc), à partir de plusieurs sites et en fonction des profils utilisateurs. Pour améliorer les résultats de la recommandation, au sein de cet algorithme distribué, une fonction de scoring [3] spécifique est utilisée pour permettre la recommandation diversifiée, et prendre en compte la diversité des profils des utilisateurs.

Pour valider l’algorithme proposé le stagiaire aura pour mission de réaliser un ensemble de simulations et développer un outil dans le cadre du multi-sites, afin d’évaluer la qualité de l’approche. Le développement se fera en JAVA. L’étudiant pourra travaillera sur les plateformes Grid’5000, Amazon S3 ou Microsoft Azure.

Ce stage s’inscrit dans le projet Mastodons, au sein de l’équipe Zenith au Lirmm.

Plus précisément le stagiaire aura pour mission :

  1. rédaction d’un état de l’art sur la recommandation distribuée
  2. proposition d’un algorithme
  3. validation:réalisation des simulations, conception et modélisation du logiciel, etc
  4. rédaction du rapport du stage

Profil de candidats recherchés :

  • Goût prononcé pour le développement
  • Aimer le travail en équipe
  • Autonomie
  • Intérêt pour le domaine des sciences

Niveau : Master 2 Informatique

Lieu : Lirmm, 95, rue de la Galéra, Montpellier

Contact : Esther Pacitti (pacitti@lirmm.fr)

Durée: de 4 à 6 mois

Références Majeurs

1. E. Pacitti, R. Akbarinia, Manal El-Dick. P2P Techniques for Decentralized Applications, Morgan & Claypool Publishers, 2012, (104 pages).

2. F. Draidi, E. Pacitti, B. Kemme. P2Prec: a P2P Recommendation System for Large-scale Data Sharing. Journal of Transactions on Large-Scale Data and Knowledge-Centered Systems 3: 87-116, Springer, 2011.

3. M. Servajean, E. Pacitti, S. Amr-Yahia, P. Neveu. Profile diversity in search and recommendation, 4th Int. Workshop on Social Recommender Systems, WWW (Companion Book) 973-980, 2013.

4. F. Draidi, E.Pacitti, D. Parigot, G. Verger: P2Prec: a Social-Based P2P Recommendation System, Int. Conf. on Information and Knowledge Management (CIKM), 2593-2596,Glasgow, United Kingdom, 2011.

Permanent link to this article: https://team.inria.fr/zenith/stage-master-2-recommandation-diversifiee-et-multi-sites/

IBC seminar: Marta Mattoso,”Algebraic Dataflows for Big Data Analysis”, Nov. 5, 11am.

ibc_logo7_small Séminaire IBC du WP5

Mardi 5 novembre, 11h
Salle 127, Batiment Galera

Algebraic Dataflows for Big Data Analysis
Marta Mattoso
UFRJ, Rio de Janeiro
Brazil

Analyzing big data requires the support of dataflows with many activities to extract and explore relevant information from the data. Recent approaches such as Pig Latin propose a high-level language to model such dataflows. However, the dataflow execution is typically delegated to a MapReduce implementation such as Hadoop, which does not follow an algebraic approach, thus it cannot take advantage of the optimization opportunities of PigLatin algebra. In this talk, we discuss some issues of hadoop and propose an approach for big data analysis based on algebraic workflows, which yields optimization and parallel execution of activities and supports user steering using provenance queries. We illustrate how a big data processing dataflow can be modeled using the algebra. Through an experimental evaluation using real datasets and the execution of the dataflow with Chiron, an engine that supports our algebra, we show that our approach yields performance gains of up to 20 % using algebraic transformations in the dataflow and up to 40 % of time saved on a user steering scenario.

Permanent link to this article: https://team.inria.fr/zenith/ibc-seminar-marta-mattosoalgebraic-dataflows-for-big-data-analysis-nov-5-11am/

Ingénieur R&D pour le projet Triton

Conception d’un middleware collaboratif de réseaux sociaux pour les entreprises

Context

Cette offre de poste d’ingénieur de R&D est liée à la création d’un laboratoire commun entre l’équipe de recherche Zenith et une jeune entreprise innovante Beepeers (beepeers.com) crée en 2011. Beepeers a développé une plateforme pour aider les entreprises à développer des réseaux sociaux et des applications sociales sur mobile, tablette et web. Depuis 2013, la société Beepeers déploie des projets commerciaux de réseaux sociaux métiers, spécifique à une entreprise, ou à une communauté ciblée. Beepeers souhaite dès à présent préparer les futurs évolutions et le déploiement à grande échelle (multi-cloud) de sa plateforme grâce à un projet de R&D commun avec Inria.

Mission

L’objectif de ce programme de R&D sera la création d’un middleware collaboratif de réseaux sociaux pour les entreprises pour:

  • Faciliter et automatiser le déploiement sur diffèrent Cloud (public ou privé)
  • Gérer les mises à jour et les ajouts de nouvelles fonctionnalité  de tous les sites et différentes instances
  • Gérer avec efficacité et souplesse toutes les informations issu d’un réseaux sociaux
  • Échanger les données métier et les services d’un réseau social à l’autre

Ce middleware de collaboration a pour vocation de permettre l’échange de données, d’information et de services avancés entre les différentes instances de réseaux sociaux d’entreprise. Ce projet est un projet collaboratif pour mettre en œuvre, sur un horizon de 2 ans la future architecture de la solution Beepeers.

Descriptif du poste

Le laboratoire commun s’appuiera sur l’expertise Inria dans la conception et la réalisation du prototype de recherche « SON » (cf. www-sop.inria.fr/teams/zenith/SON/), un middleware collaboratif d’échange de données, ainsi que sur les travaux R&D initiés par Beepeers sur « la contextualité des services Internet » pour réaliser ce middleware de collaboration de réseaux sociaux. SON est une plate-forme de développement pour les applications collaboratives qui combine trois paradigmes puissants : programmation par composant, les web services et le programmation distribuée décentralisée (en Pair à Pair).

L’ingénieur sera amené à :

  • adapter aux contraintes du projet de R&D  le modèle de développement sous-jacent à SON, à base de composants et de services en architecture décentralisée. Le modèle de développement proposé (programmation concurrente déclarative), permet de faire évoluer et d’ajouter très simplement des nouveaux services avancés (de collaboration de données).
  • de mettre en place à chaque instant des mécanismes d’architecture décentralisé, permettant le passage à l’échelle des solutions proposées. Ces mécanismes pourront s’appuyer sur les standards de stockage de données du type NoSQL pour les réseaux sociaux.
  • concevoir pour les besoins spécifiques du middleware, des algorithmes efficaces de propagation, de diffusion, d’échange d’informations.
  • de permettre l’accès à des services métiers ou techniques localisés sur un cloud distant sans effort.

Profil recherché

  • Ingénieur (Bac + 5) avec 2 ou 3 ans expérience ou Thèse sur la thèmatique
  • Compétences (2 à 3 trois ans d’expériences) en développement d’architecture logiciel en Java, à base de composant (ex. spring) ;
  • Expérience dans la gestion de bases de données, de type NoSQL (ex.Hbase, MongoDB, Cassandra etc)  ;
  • Goût du travail en équipe et en mode projet.

Perspectif du poste

La mise en œuvre  de cette nouvelle architecture permettra à l’ingénieur d’acquérir et d’approfondir un ensemble de concepts et technologies de l’informatique de demain. Puis un prolongement du poste au siens de la société Beepeers est fortement envisagé et souhaitable. Enfin en vue des derniers résultats (succès commerciale de la solution Beeppeers), la société Beepeers va certainement connaitre un fort taux de croissance.

Dossier de canditature

Merci de transmettre très rapidement votre curriculum vitae et une lettre de motivation à Didier.Parigot@inria.fr.

Informations

Salaire mensuel brut proposé :

Salaire : Entre 2600 et 2900 € bruts mensuel selon expérience et niveau de diplôme dans le domaine.

Lieu de travail :

Centre de recherche Inria Sophia Antipolis – Méditerranée

2004 route des lucioles – BP 93 – 06902 Sophia Antipolis cedex

Date de prise de fonction : Le plus rapidement possible

Durée du contrat :   1 an

Diplôme et expérience requis :  

Bac +5 (École d’ingénieur/Master 2) ou Thèse
Expérience professionnelle significative d’au moins 2 ans dans le domaine concerné.

Permanent link to this article: https://team.inria.fr/zenith/triton-poste-dingenieur/

Zenith meeting on Oct 15. 2013

teambuilder1Next Zenith team meeting will be held at at Golf de Coulondres (http://www.coulondres.com/Contact) on Oct. 15, 2013.

We will have the following schedule:

 

9h30 Coffee
10h00 Patrick: “About CoherentPaaS and other projects
10h30 Florent: “On data mining @Zenith
11h00 Reza: “Probabilistic and Big data Management in Zenith
11h30 Esther: “From peer-to-peer to multisite  diversified recommendation

lunch

14h00 Didier: “”
14h30 Tristan: “Chiaroscuro: overview
15h00 Alexis: “”
15h30 Coffee break
16h00 discussion
16h30 end

Permanent link to this article: https://team.inria.fr/zenith/zenith-meeting-on-oct-15-2013/

Fête de la science : participation de Zenith au village des sciences de Genopolys (3 jours).

300_298_fete-de-la-science-2012Le Lirmm et Inria tiendront un stand au village des sciences de Genopolys pour la fête de la science. Rendez-vous  jeudi 10 et vendredi 11 octobre pour les publics scolaires, ainsi que samedi 12 octobre pour un accueil tout public. Au programme : films, ateliers (bouteilles et océans, mallette d’activités déconnectées,…) et le jeu Datagramme !

Permanent link to this article: https://team.inria.fr/zenith/fete-de-la-science-participation-de-zenith-au-village-des-sciences-de-genopolys-3-jours/

IBC seminar: Alexis Joly,”Pl@ntnet: interactive plant identification and collaborative information system.”, Sept 20, 2pm.

plantnet (1)Alexis Joly,
Zenith team, INRIA and LIRMM, France.

Pl@ntnet: interactive plant identification and collaborative information system.
Speeding up the collection and integration of raw botanical observation data is a crucial step towards a sustainable development of agriculture and the conservation of biodiversity. Initiated in the context of a citizen sciences project, the main contribution of Pl@ntNet (http://www.plantnet-project.org) is an innovative collaborative workflow focused on image-based plants identification as a mean to enlist new contributors and facilitate access to botanical data. Since 2010, hundreds of thousands of geo-tagged and dated plant photographs were collected and revised by hundreds of novice, amateur and expert botanists of a specialized social network. An image-based identication tool – available as both a web and a mobile application – is synchronized with that growing data and allows any user to query or enrich the system with new observations. An important originality is that it works with up to ve dierent organs contrarily to previous approaches that mainly relied on the leaf. This allows querying the system at any period of the year and with complementary images composing a plant observation. Extensive experiments of the visual search engine as well as system-oriented and user-oriented evaluations of the application show that it is already very helpful to determine a plant among hundreds or thousands of species. At the time of writing, the whole framework covers about half of the plant species living in France (3776 species), which already makes it the widest existing automated identication tool.

Permanent link to this article: https://team.inria.fr/zenith/zenith-scientific-seminar-alexis-jolyplntnet-interactive-plant-identification-and-collaborative-information-system-sept-20-2pm/