Séminaire IBC, pôle données connaissances LIRMM, Zenith Vendredi 6 mars à 14h Salle 2/22 Campus Saint-Priest – Bâtiment 5 860 rue de St Priest 34392 Montpellier Cedex 5 Statistics is Easy Dennis Shasha Courant Institute of Mathematical Sciences, New York University Inria, Zenith team, Montpellier Few people remember statistics with much love. To some, probability was fun because it felt combinatorial and logical (with potentially profitable applications to gambling), but statistics was a bunch of complicated formulas with counter-intuitive assumptions. As a result, if a practicing natural or social scientist must conduct an experiment, he or she can’t derive anything from first principles but instead pulls out some dusty statistics book and applies some formula or uses some software, hoping that the distribution assumptions allowing the use of that formula apply. To mimic a familiar phrase: “There are hacks, damn hacks, and there are statistics.” Surprisingly, a strong minority current of modern statistical theory offers the possibility of avoiding both the magic and the assumptions of classical statistical theory through randomization techniques known collectively as resampling. These techniques take a given sample and either create new samples by randomly selecting values from the given sample with replacement or by randomly shuffling labels on the data. The questions answered are the familiar: how accurate is my measurement likely to be (confidence interval) and could it have happened by mistake (significance). This talk explains the basic of resampling statistics through a number of simple-to-understand examples such as tossing coins, evaluating the effectiveness of drugs, and determining the sane reaction to a medical test result. The talk will be in French but the power points will be in English. It would be good if the participants could get the book before the lecture (should be freely downloadable if your library has an account at Morgan Claypool ): Statistics is Easy! Dennis Shasha and Manda Wilson Synthesis Lectures on Mathematics and Statistics, Morgan Claypool http://www.morganclaypool.com/doi/abs/10.2200/S00142ED1V01Y200807MAS001 Bio Dennis Shasha is a professor of computer science at the Courant Institute of Mathematical Sciences, a division of New York University. His current areas of research include work done with biologists on pattern discovery for microarrays, combinatorial design, network inference, and protein docking; work done with physicists, musicians, and professionals in finance on algorithms for time series; and work on database applications in untrusted environments. Other areas of interest include database tuning as well as tree and graph matching. After graduating from Yale in 1977, he worked for IBM designing circuits and microcode for the IBM 3090. While at IBM, he earned his M.Sc. from Syracuse University in 1980. He completed his Ph.D. in applied mathematics at Harvard in 1984. Professor Shasha has written six books of puzzles, five of which center on the work of a mathematical detective by the name of Jacob Ecco, a biography about great computer scientists and several technical books relating to his various areas of research (biological computing, databases, statistics, etc.). He has written monthly puzzle columns for Scientific American and Dr. Dobb’s Journal. In 2013 he became a fellow of the Association for Computing Machinery. Since 2015, he holds an Inria International Chair, in the Zenith team.
Permanent link to this article: https://team.inria.fr/zenith/seminar-statistics-is-easy-dennis-shasha-march-6-at-2pm/
Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-monday-dec-15-at-11-am-sihem-amer-yahia/
Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-monday-dec-09-at-10h30-prof-bettina-kemme-mcgill-university/
Permanent link to this article: https://team.inria.fr/zenith/inria-international-chair-in-zenith-for-dennis-shasha/
Nov 04
Ingénieur R&D projet Triton, November 11, 2014
Ingénieur R&D à fort potentiel, pour la conception d’un middleware pour réseaux sociaux d’entreprise
Beepeers, startup en forte croissance, a développé une plateforme pour aider ses clients (entreprises, collectivités et organisations diverses) à développer des réseaux sociaux et des applications sur smartphones, tablettes et ordinateurs (beepeers.com).
Inria est l’institut français dédié aux sciences et technologies du numérique (inria.fr).
La société et l’institut de recherche se sont rapprochés pour créer « Triton », un Inria Innovation Lab afin de préparer les futures évolutions et le déploiement à grande échelle de la plateforme technologique de Beepeers, et renforcer le fort développement de l’entreprise.
Plus précisément l’objectif de ce lab sera de réaliser un middleware modulaire, flexible et dynamique pour des réseaux sociaux d’entreprise qui facilitera le passage à l’échelle, l’ajout de nouveaux services et un déploiement automatique des diverses solutions de Beepeers sur des clouds. Cette nouvelle architecture sera fortement basée sur les dernières avancées technologies suivantes :
- base de données NoSQL (base de données orientée graphe) ;
- architecture orientée services (Spring, Osgi, RESTful) ;
- Cloud Computing pour le déploiement ;
- Big Data pour la partie analyse/extraction (Hadoop).
Au sein du Lab Triton, l’ingénieur sera amené à :
- adapter aux contraintes du projet de R&D ces nouvelles technologies, en particulier les base de données NoSQL et les architectures orientée services ;
- de mettre en place des mécanismes d’architecture décentralisés, permettant le passage à l’échelle des solutions proposées ;
- concevoir pour les besoins spécifiques des solutions de Beepeers, des algorithmes efficaces de propagation, de diffusion, d’échange d’informations et d’extraction d’informations ;
- de permettre l’accès à des services métiers ou techniques localisés sur d’autres sites.
Profil recherché
- Ingénieur (Master 2) avec 2 ou 3 ans d’expérience ou titulaire d’une thèse dans le domaine ;
- Avoir 2 à 3 trois ans d’expérience en développement d’architecture logiciel en Java, à base de composants, notamment Spring ;
- Avoir une expérience dans la gestion de bases de données de type NoSQL (Hbase, MongoDB, Cassandra…) ;
- Etre autonome et proactif ; savoir travailler en équipe et en mode projet.
Au delà du Lab, la mission confiée à l’ingénieur pourrait déboucher sur un poste clef dans la société.
Dossier de candidature
Votre curriculum vitae et une lettre de motivation devront être adressés à :
Didier Parigot, Inria – Senior Researcher : didier.parigot@inria.fr ;
Patrice Prez, Inria – Head Tech Transfer Office @ Sophia : patrice.prez@inria.fr
Alain Prette, Beepeers – CEO : alain.prette@beepeers.com.
Permanent link to this article: https://team.inria.fr/zenith/ingenieur-rd-projet-triton/
Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-friday-10-oct-at-330-pm-mohamed-reda-bouadjenek/
Permanent link to this article: https://team.inria.fr/zenith/the-third-edition-of-principles-of-distributed-database-systems-now-released-in-chinese/
Permanent link to this article: https://team.inria.fr/zenith/patrick-valduriez-est-laureat-du-prix-de-linnovation-inria-academie-des-sciences-dassault-systemes-2014-3/
Jul 23
Thèse Cifre “Conception d’une architecture innovante, ouvert, extensible et agile pour des réseaux sociaux d’entreprise” 7 juillet 2014.
Conception d’une architecture innovante, ouverte, extensible et agile pour des réseaux sociaux d’entreprise.
Thése Cifre avec la société Beepeers
Société : Beepeers (beepeers.com) dont l’activité est la création d’une plateforme collaborative d’outils sociaux pour les entreprises.
Lieu de travail : Sophia Antipolis
Directeur de Thèse : Didier Parigot http://www-sop.inria.fr/members/Didier.Parigot/
Equipe-Projet : Zenith https://team.inria.fr/zenith/
Introduction
Depuis quelques années les thématiques de gestion de grand volume de donnée (BIG DATA) et des données ouvertes (OPEN DATA) prennent une importance grandissante avec l’essor des réseaux sociaux et de l’internet. En effet par une exploitation ou une analyse des données manipulées il est possible d’extraire de nouvelles informations pertinentes qui permettent de proposer de nouveaux services ou outils. Mais pour un passage à l’échelle et une souplesse d’utilisation il est vital de concevoir une architecture logicielle innovante basée sur les nouvelles technologies du Big Data et du Cloud computing (SaaS). Dans le cadre d’une collaboration entre notre Equipe-Projet Zenith et une très jeune startup Beepeers qui commercialise une plateforme pour le développement de réseaux sociaux sectoriel, nous proposons ce sujet de recherche afin de concevoir une architecture innovante de cette plate-forme pour automatiser le plus possible les divers instanciation de la solution Beepeer sur le Cloud et de facilité la mise en place de nouveaux services avancés basés sur l’extraction ou l’analyse des données produites par ces réseaux sociaux d’entreprise.
Objectif de la thèse
L’objectif de la thèse sera de proposer une architecture innovant afin d’une part d’instancier rapidement les diverses instance de la solution Beepeers dans divers solution Cloud en fonction des fonctionnalités requises et d’autre part de permettre la mise en place d’outils d’extraction et d’analyse des donnée internes aux réseaux et aussi issus d’autre source de donnée, externe au réseaux. La plate-forme Beepeers propose déjà un riche ensemble de fonctionnalité ou services qui formera une excellente basse initiale pour ces futurs travaux de recherche.
Le doctorant devra proposer dans ce cadre applicatif bien ciblé, une architecture innovant qui devra combiner et permettre une mise en œuvre aisée des techniques suivantes :
- d’analyse de données et extraction d’information ;
- de propagation ou de diffusion d’information à travers le réseau ou entre différents réseaux sociaux connectés à la plate-forme Beepeers ;
- de recommandation de personne, de service ou d’évènement à l’aide des avis des utilisateurs du réseau (fonctionnalité déjà disponible dans la plate-forme Beepeers) ;
- d’extraction par requête base de donnée continu dans le temps (persistant) sur les sites de données ouvertes disponible et pertinentes pour le réseau sectoriel sous-jacent.
Il sera demandé une mise en œuvre originale basée sur
- une architecture décentralisée orientée services pour permettre un passage à l’échelle des solutions ;
- les bases de donnée orienté métiers comme Cassandra ou MongoDB pour une gestion de grand volume de données ;
- un déploiement dynamique à la demande des services avancés dans le Cloud.
Contexte de la collaboration
Cette collaboration fait déjà l’objet d’un partenariat fort INRIA-PME à travers la mise en place et le démarrage cette année d’un laboratoire commun (I-lab), dénommé Triton, avec comme programme de R&D l’élaboration d’une architecture innovante pour la plate-forme Beepeers pour le passage à l’échelle. Ce programme de R&D va s’appuyer sur notre expertise en architecture décentralisée orientée services à travers l’utilisation de notre outil SON (Shared Overlay Network). Le doctorant sera donc accompagné dans ses propositions par cette équipe de R&D de ce laboratoire commun Triton et pourra tester et valider ses propositions pour cette nouvelle plate-forme Beepeers développé dans le cadre de l’I-Lab Triton. De plus le doctorant pourra s’appuyer sur l’expertise scientifique de l’équipe-projet Zenith en terme gestion de données scientifiques.
Résultats attendus et profil attendus du candidat
Le candidat devra avoir un gout prononcé par la validation pratique de ses travaux de recherche, et des bonnes aptitudes d’abstraction pour savoir maitriser et appréhender rapidement ces différentes techniques d’analyse ou d’extraction de donnée issu de divers communautés scientifiques (base de donné, analyse d’usage et la programmation distribuée pour la mise en œuvre). Le candidat devra savoir travailler en équipe, en étroite collaboration avec la société Beepeers pour mener à bien ses travaux de recherche. Ces travaux devront trouver rapidement des champs d’application à travers la réalisation concrète et effective de nouveaux services de la plate-forme Beepeers.
Profil recherché
- Ecole d’Ingénieur (BAC + 5) ou Master 2 ;
- Expérience professionnelle ou institutionnelle souhaitée ;
- Domaine :
- Développement d’architecture logicielle en JAVA à base de composant (ex : Spring)
- Bases de Données de type NoSQL (HBase, MongoDB, Cassandra)
- Goût du travail en Équipe
- Bon niveau en Anglais
Pour postuler (voir les modalités d’une thèse cifre )
Merci de transmettre votre curriculum vitae, lettre de recommandation et une lettre de motivation à Didier Parigot le plus rapidement possible Didier.Parigot@inria.fr
Permanent link to this article: https://team.inria.fr/zenith/these-cifre-conception-dune-architecture-innovante-ouvert-extensible-et-agile-pour-des-reseaux-sociaux-dentreprise/
Jul 10
Post-doctoral position on Massive Data Analytics
Post-doctoral position available at Inria.
Title: Massive Data Analytics
Location: Montpellier, south of France.
Duration: 1 year (starting in september 2014)
Keywords: data analytics, large scale distribution, knowledge discovery, pattern mining.
Description: The Inria’s Zenith team (https://team.inria.fr/zenith/), directed by P. Valduriez, proposes a postdoctoral research position on massive data analytics. In the context of massive data distribution at very large scale, we must address major challenges to develop efficient solutions for analyzing the data. Actually, technological solutions exist to support developers in this task, e.g. Apache Spark or the MapReduce framework. However, there are still crucial problems to resolve in order to avoid dramatical response times. For example, in the case of pattern extraction, it is vital to design extraction schemes that take into account the context of distribution and characteristics of the infrastructure (typically a straightforward implementation of Apriori in MapReduce for frequent pattern discovery is easy, but will lead to very low performance). The analytical techniques considered in this postdoctoral position relate frequent patterns, frequent sequential patterns or informative patterns (based on entropy). According to your background, you will work on one or more of these topics, in a large scale distributed environment.
Salary: to be negotiated according to your experience.
Application: The candidate should have a strong background in large scale data management and be proficient in English. Send us a detailed CV, including a complete bibliography and recommendation letters.
Contacts: Florent Masseglia (florent.masseglia@inria.fr), Reza Akbarinia (reza.akbarinia@inria.fr), Patrick Valduriez (patrick.valduriez@inria.fr)
More information about the team: https://team.inria.fr/zenith/
Permanent link to this article: https://team.inria.fr/zenith/post-doctoral-position-on-massive-data-analytics/