IBC seminar: Dennis Shasha (NYU) “Statistics is Easy”

statisticsSéminaire IBC, pôle données connaissances LIRMM, Zenith Vendredi 6 mars à 14h Salle 2/22 Campus Saint-Priest – Bâtiment 5 860 rue de St Priest 34392 Montpellier Cedex 5 Statistics is Easy Dennis Shasha Courant Institute of Mathematical Sciences, New York University Inria, Zenith team, Montpellier Few people remember statistics with much love. To some, probability was fun because it felt combinatorial and logical (with potentially profitable applications to gambling), but statistics was a bunch of complicated formulas with counter-intuitive assumptions. As a result, if a practicing natural or social scientist must conduct an experiment, he or she can’t derive anything from first principles but instead pulls out some dusty statistics book and applies some formula or uses some software, hoping that the distribution assumptions allowing the use of that formula apply. To mimic a familiar phrase: “There are hacks, damn hacks, and there are statistics.” Surprisingly, a strong minority current of modern statistical theory offers the possibility of avoiding both the magic and the assumptions of classical statistical theory through randomization techniques known collectively as resampling. These techniques take a given sample and either create new samples by randomly selecting values from the given sample with replacement or by randomly shuffling labels on the data. The questions answered are the familiar: how accurate is my measurement likely to be (confidence interval) and could it have happened by mistake (significance). This talk explains the basic of resampling statistics through a number of simple-to-understand examples such as tossing coins, evaluating the effectiveness of drugs, and determining the sane reaction to a medical test result. The talk will be in French but the power points will be in English. It would be good if the participants could get the book before the lecture (should be freely downloadable if your library has an account at Morgan Claypool ): Statistics is Easy! Dennis Shasha and Manda Wilson Synthesis Lectures on Mathematics and Statistics, Morgan Claypool http://www.morganclaypool.com/doi/abs/10.2200/S00142ED1V01Y200807MAS001 Bio Dennis Shasha is a professor of computer science at the Courant Institute of Mathematical Sciences, a division of New York University. His current areas of research include work done with biologists on pattern discovery for microarrays, combinatorial design, network inference, and protein docking; work done with physicists, musicians, and professionals in finance on algorithms for time series; and work on database applications in untrusted environments. Other areas of interest include database tuning as well as tree and graph matching. After graduating from Yale in 1977, he worked for IBM designing circuits and microcode for the IBM 3090. While at IBM, he earned his M.Sc. from Syracuse University in 1980. He completed his Ph.D. in applied mathematics at Harvard in 1984. Professor Shasha has written six books of puzzles, five of which center on the work of a mathematical detective by the name of Jacob Ecco, a biography about great computer scientists and several technical books relating to his various areas of research (biological computing, databases, statistics, etc.).  He has written monthly puzzle columns for Scientific American and Dr. Dobb’s Journal. In 2013 he became a fellow of the Association for Computing Machinery. Since 2015, he holds an Inria International Chair, in the Zenith team.

Permanent link to this article: https://team.inria.fr/zenith/seminar-statistics-is-easy-dennis-shasha-march-6-at-2pm/

Zenith seminar: Sihem Amer Yahia (LIG) “Task Assignment Optimization in Crowdsourcing”

crowdMonday Dec 15 at 11 am Bat5 2/124

Task Assignment Optimization in Crowdsourcing

By Dr. Sihem Amer-Yahia (LIG, Univ. Grenoble) A crowdsourcing process can be viewed as a combination of three components: worker skill estimation, worker-to-task assignment, and task accuracy evaluation. The reason why crowdsourcing today is so popular is that tasks are small, independent, homogeneous, and do not require a long engagement from workers. The crowd is typically volatile, its arrival and departure asynchronous, and its levels of attention and accuracy variable. As a result, popular crowdsourcing platforms are not well-adapted to emerging team-based tasks such as collaborative editing, multi-player games, or fan-subbing, that require to form a team of experts to accomplish a task together. In particular, I will argue that the optimization of worker-to-task assignment is central to the effectiveness of team-based crowdsourcing. I will present a framework that allows to formulate worker-to-task assignment as optimization problems with different goals and summarize some of our results in this area.

Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-monday-dec-15-at-11-am-sihem-amer-yahia/

Zenith seminar “Multiplayer Games: a complex application in need for scalable replica management”, Bettina Kemme (McGill Univ.), Dec 9, 2014

mammoth19/12/2014 à 10h30, salle 5.1.056 Multiplayer Games: a complex application in need for scalable replica management Prof. Bettina Kemme, McGill University Multiplayer Online Games (MOGs) are an extremely popular online technology, one that produces billions of dollars in revenues. The underlying architecture of game engines is distributed by nature and has to maintain large amounts of quickly changing state. In particular, each client has its own partial view of a continuously evolving virtual world, and all these client copies have to be kept up-to-date. In this talk, I will present an overview of current game architectures, from client-server to peer-to-peer architectures, and outline possible solutions to several challenges that one faces when trying to meet the scalability, response time and low cost requirements of multiplayer game engines: distributed state maintenance, scalable update dissemination, and the avoidance or detection of malicious cheating behavior.

Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-monday-dec-09-at-10h30-prof-bettina-kemme-mcgill-university/

Inria International Chair in Zenith for Dennis Shasha, Novembre 8, 2014

Professor Dennis Shasha, Courant Institute of Mathematics, New York University, has been awarded an Inria international chair 2015-2019, based in the Zenith team, Montpellier. His research program, in the context of the Computational Biology Institute, will address data science in a dynamic world, aiming to find fast and minimalist methods to update insights as new data appears.

Permanent link to this article: https://team.inria.fr/zenith/inria-international-chair-in-zenith-for-dennis-shasha/

Ingénieur R&D projet Triton, November 11, 2014

Ingénieur R&D à fort potentiel, pour la conception d’un middleware pour réseaux sociaux d’entreprise

Beepeers, startup en forte croissance, a développé une plateforme pour aider ses clients (entreprises, collectivités et organisations diverses) à développer des réseaux sociaux et des applications sur smartphones, tablettes et ordinateurs (beepeers.com).

Inria est l’institut français dédié aux sciences et technologies du numérique (inria.fr).

La société et l’institut de recherche se sont rapprochés pour créer « Triton », un Inria Innovation Lab afin de préparer les futures évolutions et le déploiement à grande échelle de la plateforme technologique de Beepeers, et renforcer le fort développement de l’entreprise.

Plus précisément l’objectif de ce lab sera de réaliser un middleware modulaire, flexible et dynamique pour des réseaux sociaux d’entreprise qui facilitera le passage à l’échelle, l’ajout de nouveaux services et un déploiement automatique des diverses solutions de Beepeers sur des clouds. Cette nouvelle architecture sera fortement basée sur les dernières avancées technologies suivantes :

  • base de données NoSQL (base de données orientée graphe) ;
  • architecture orientée services (Spring, Osgi, RESTful) ;
  • Cloud Computing pour le déploiement ;
  • Big Data pour la partie analyse/extraction (Hadoop).

Au sein du Lab Triton, l’ingénieur sera amené à :

  • adapter aux contraintes du projet de R&D  ces nouvelles technologies, en particulier les base de données NoSQL et les architectures orientée services ;
  •  de mettre en place des mécanismes d’architecture décentralisés, permettant le passage à l’échelle des solutions proposées ;
  • concevoir pour les besoins spécifiques des solutions de Beepeers, des algorithmes efficaces de propagation, de diffusion, d’échange d’informations et d’extraction d’informations ;
  • de permettre l’accès à des services métiers ou techniques localisés sur d’autres sites.

Profil recherché

  • Ingénieur (Master 2) avec 2 ou 3 ans d’expérience ou titulaire d’une thèse dans le domaine ;
  • Avoir 2 à 3 trois ans d’expérience en développement d’architecture logiciel en Java, à base de composants, notamment Spring ;
  • Avoir une expérience dans la gestion de bases de données de type NoSQL (Hbase, MongoDB, Cassandra…)  ;
  • Etre autonome et proactif ; savoir travailler en équipe et en mode projet.

Au delà du Lab, la mission confiée à l’ingénieur pourrait déboucher sur un poste clef dans la société.

Dossier de candidature

Votre curriculum vitae et une lettre de motivation devront être adressés à :

Didier Parigot, Inria – Senior Researcher : didier.parigot@inria.fr ;

Patrice Prez, Inria – Head Tech Transfer Office @ Sophia : patrice.prez@inria.fr

Alain Prette, Beepeers – CEO : alain.prette@beepeers.com.

Permanent link to this article: https://team.inria.fr/zenith/ingenieur-rd-projet-triton/

Zenith seminar “A Distributed Collaborative Filtering Algorithm With Multiple and Heterogeneous Data Sources”, Mohamed Reda Bouadjenek, October 10, 2014

collaborativeReda will present his recent work in Distributed Collaborative Filtering on Friday 10 Oct at 3:30pm (room to be defined). A Distributed Collaborative Filtering Algorithm With Multiple and Heterogeneous Data Sources. Recommender systems are used as a mean to supply users with content that may be of interest to them. They have attracted the attention of the research community, and have become a popular research topic, where many aspects and dimensions have been studied to make them more accurate and effective (this includes the: social dimension, geographical dimension, diversification aspect, etc.). Collaborative filtering (CF) is certainly one of the most famous recommendation methods, which consists in predicting whether, or how much, a user will like (or dislike) an item by leveraging knowledge of that user’s preferences as well as those of other users. However, in practice, users interact and express their opinion on only a small subset of items, which makes the corresponding user-item rating matrix very sparse. Consequently, in a recommender system, this data sparsity induced mainly two problems: (1) the lack of data to effectively model users’ preferences (news users suffer from the cold-start problem), and similarly (2) the lack of data to effectively model items’ preferences (new items suffer from the cold-start problem since no user has rated them). However, on the other hand, users use many online services, which can provide information about their interest and the content of items (e.g. Google search engine, Facebook, Twitter, etc). These services may be valuable data sources, which supply information to help a recommender system in modeling users and items’ preferences, and thus, make the recommender system more precise. Moreover, these data sources are distributed, and geographically distant from each other, which raise many research problems and challenges to design a distributed recommendation algorithm. Hence, in this talk, we present a new distributed collaborative filtering algorithm, which exploits and combine these multiple and heterogeneous data sources to improve the recommendation quality. Short bio: Reda Bouadjenek received a master and a PhD degree in computer science from the University of Versailles, France, in 2009 and 2013 respectively. He is currently a postdoctoral researcher at INRIA, and works on recommender systems. Previously, he worked for Alcatel-Lucent Bell Labs France from 2010 to 2013 as researcher, then was a visitor researcher at NICTA&ANU, Australia, in 2013. His research interests include Information Retrieval, Social Network Analysis, Data Mining, Machine Learning, Recommender Systems, and Databases.

Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-friday-10-oct-at-330-pm-mohamed-reda-bouadjenek/

The third edition of Principles of Distributed Database Systems now released in Chinese.

podds3cn2

The third edition of Özsu-Valduriez’s Principles of Distributed Database Systems

(Springer 2011) has now been released in Chinese.

Translation by Prof. Li-Zhu Zhou published by Tsinghua University Press.

Permanent link to this article: https://team.inria.fr/zenith/the-third-edition-of-principles-of-distributed-database-systems-now-released-in-chinese/

Patrick Valduriez est lauréat du Prix de l’innovation Inria – Académie des sciences – Dassault systèmes 2014

Valduriez 230714 - copie cadréeInstaurés en 2011, les Prix Inria ont pour vocation de promouvoir les contributions et succès de celles et ceux qui font avancer les sciences informatiques et mathématiques, qui participent ainsi au développement de notre monde numérique.

Inria annonce les lauréats des Prix Inria 2014.

Permanent link to this article: https://team.inria.fr/zenith/patrick-valduriez-est-laureat-du-prix-de-linnovation-inria-academie-des-sciences-dassault-systemes-2014-3/

Thèse Cifre “Conception d’une architecture innovante, ouvert, extensible et agile pour des réseaux sociaux d’entreprise” 7 juillet 2014.

 

Conception d’une architecture innovante, ouverte, extensible et agile pour des réseaux sociaux d’entreprise.

Thése Cifre avec la société Beepeers

Société : Beepeers (beepeers.com) dont l’activité est la création d’une plateforme collaborative d’outils sociaux pour les entreprises.

Lieu de travail : Sophia Antipolis

Directeur de Thèse : Didier Parigot http://www-sop.inria.fr/members/Didier.Parigot/

Equipe-Projet : Zenith https://team.inria.fr/zenith/

Introduction

Depuis quelques années les thématiques de gestion de grand volume de donnée (BIG DATA) et des données ouvertes (OPEN DATA) prennent une importance grandissante avec l’essor des réseaux sociaux et de l’internet.  En effet par une exploitation ou une analyse des données manipulées il est possible d’extraire de nouvelles informations pertinentes qui permettent de proposer de nouveaux services ou outils. Mais pour un passage à l’échelle et une souplesse d’utilisation il est vital de concevoir une architecture logicielle innovante basée sur les nouvelles technologies du Big Data et du Cloud computing (SaaS). Dans le cadre d’une collaboration entre notre Equipe-Projet Zenith et une très jeune startup Beepeers qui commercialise une plateforme pour le développement de réseaux sociaux sectoriel, nous proposons ce sujet de recherche afin de concevoir une architecture innovante de cette plate-forme pour automatiser le plus possible les divers instanciation de la solution Beepeer sur le Cloud et de facilité la mise en place de nouveaux services avancés basés sur l’extraction ou l’analyse des données produites par ces réseaux sociaux d’entreprise.

Objectif de la thèse

L’objectif de la thèse sera de proposer une architecture innovant afin d’une part d’instancier rapidement les diverses instance de la solution Beepeers dans divers solution Cloud en fonction des fonctionnalités requises et d’autre part de permettre la mise en place d’outils d’extraction et d’analyse des donnée internes aux réseaux et aussi issus d’autre source de donnée, externe au réseaux. La plate-forme Beepeers propose déjà un riche ensemble de fonctionnalité ou services qui formera une excellente basse initiale pour ces futurs travaux de recherche.

Le doctorant devra proposer dans ce cadre applicatif bien ciblé, une architecture innovant qui devra combiner et permettre une mise en œuvre aisée des techniques suivantes :

  • d’analyse de données et extraction d’information ;
  • de propagation ou de diffusion d’information à travers le réseau ou entre différents réseaux sociaux connectés à la plate-forme Beepeers ;
  • de recommandation de personne, de service ou d’évènement à l’aide des avis des utilisateurs du réseau (fonctionnalité déjà disponible dans la plate-forme Beepeers) ;
  • d’extraction par requête base de donnée continu dans le temps (persistant) sur les sites de données ouvertes disponible et pertinentes pour le réseau sectoriel sous-jacent.

Il sera demandé une mise en œuvre originale basée sur

  •  une architecture décentralisée orientée services pour permettre un passage à l’échelle des solutions ;
  •  les bases de donnée orienté métiers comme Cassandra ou MongoDB pour une gestion de grand volume de données ;
  • un déploiement dynamique à la demande des services avancés dans le Cloud.

Contexte de la collaboration

Cette collaboration fait déjà l’objet d’un partenariat fort INRIA-PME à travers la mise en place et le démarrage cette année d’un laboratoire commun (I-lab), dénommé Triton, avec comme programme de R&D l’élaboration d’une architecture innovante pour la plate-forme Beepeers pour le passage à l’échelle. Ce programme de R&D va s’appuyer sur notre expertise en architecture décentralisée orientée services à travers l’utilisation de notre outil SON (Shared Overlay Network). Le doctorant sera donc accompagné dans ses propositions par cette équipe de R&D de ce  laboratoire commun Triton et pourra tester et valider ses propositions pour cette  nouvelle plate-forme Beepeers développé dans le cadre de l’I-Lab Triton. De plus le doctorant pourra s’appuyer sur l’expertise scientifique de l’équipe-projet Zenith en terme  gestion de données scientifiques.

Résultats attendus et profil attendus du candidat

Le candidat devra avoir un gout prononcé par la validation pratique de ses travaux de recherche, et des bonnes aptitudes d’abstraction pour savoir maitriser et appréhender rapidement ces différentes techniques d’analyse ou d’extraction de donnée issu de divers communautés scientifiques (base de donné, analyse d’usage et la programmation distribuée pour la mise en  œuvre). Le candidat devra savoir travailler en équipe, en étroite collaboration avec la société Beepeers pour mener à bien ses travaux de recherche.  Ces travaux devront trouver rapidement des champs d’application à travers la réalisation concrète et effective de nouveaux services de la plate-forme Beepeers.

Profil recherché

  • Ecole d’Ingénieur (BAC + 5) ou Master 2 ;
  • Expérience professionnelle ou institutionnelle souhaitée ;
  • Domaine :
  • Développement d’architecture logicielle en JAVA  à base de composant (ex : Spring)
  • Bases de Données de type NoSQL (HBase, MongoDB, Cassandra)
  • Goût du travail en Équipe
  • Bon niveau en Anglais

Pour postuler (voir les modalités d’une thèse cifre )

Merci de transmettre votre curriculum vitae, lettre de recommandation et une lettre de motivation à Didier Parigot le plus rapidement possible Didier.Parigot@inria.fr

Permanent link to this article: https://team.inria.fr/zenith/these-cifre-conception-dune-architecture-innovante-ouvert-extensible-et-agile-pour-des-reseaux-sociaux-dentreprise/

Post-doctoral position on Massive Data Analytics

Big_DataPost-doctoral position available at Inria.

Title: Massive Data Analytics

Location: Montpellier, south of France.

Duration: 1 year (starting in september 2014)

Keywords: data analytics, large scale distribution, knowledge discovery, pattern mining.

Description: The Inria’s Zenith team (https://team.inria.fr/zenith/), directed by P. Valduriez, proposes a postdoctoral research position on massive data analytics. In the context of massive data distribution at very large scale, we must address major challenges to develop efficient solutions for analyzing the data. Actually, technological solutions exist to support developers in this task, e.g. Apache Spark or the MapReduce framework. However, there are still crucial problems to resolve in order to avoid dramatical response times. For example, in the case of pattern extraction, it is vital to design extraction schemes that take into account the context of distribution and characteristics of the infrastructure (typically a straightforward implementation of Apriori in MapReduce for frequent pattern discovery is easy, but will lead to very low performance). The analytical techniques considered in this postdoctoral position relate frequent patterns, frequent sequential patterns or informative patterns (based on entropy). According to your background, you will work on one or more of these topics, in a large scale distributed environment.

Salary: to be negotiated according to your experience.

Application: The candidate should have a strong background in large scale data management and be proficient in English. Send us a detailed CV, including a complete bibliography and recommendation letters.

Contacts: Florent Masseglia (florent.masseglia@inria.fr), Reza Akbarinia (reza.akbarinia@inria.fr), Patrick Valduriez (patrick.valduriez@inria.fr)

More information about the team: https://team.inria.fr/zenith/

Permanent link to this article: https://team.inria.fr/zenith/post-doctoral-position-on-massive-data-analytics/