MUSIC seminar: Marta Mattoso “Data Analysis: do not start without provenance data” 4 nov. 2016

Data analysis: do not start without provenance data
Marta Mattoso
COPPE/UFRJ, Rio de Janeiro

4 November 2016, 14h
Room 1/124, Bat.5

Abstract: This talk will present the history and current status of provenance with its role in scientific data analysis. Provenance aims at registering the dataflow resulting from computer simulations, which is essential to make a reproducible and reliable experiment. Scientific data analysis can be improved when provenance data acts as an index that relates data repositories and represents domain data giving access to its content elements. More specifically, the challenges in providing provenance data to support the scientist in the design and reconfiguration of the workflow, while it is executing in a high-performance computing environment, are discussed. They will be presented with real use cases of applications in bioinformatics with parallel execution in clouds and applications in geophysics using supercomputers.

Permanent link to this article: https://team.inria.fr/zenith/music-seminar-marta-mattoso-data-analysis-do-not-start-without-provenance-data/

Junior Conference on Data Science and Engineering: Patrick Valduriez “From Databases to Data Science: impact on information systems” 15 sept. 2016

From Databases to Data Science: impact on information systems

Patrick Valduriez

Junior Conference on Data Science and Engineering, Paris Saclay, 15 september 2016

Data has been quoted as the new oil, to reflect that big data can be turned into high-value information and new knowledge. Although data analysis has been around for a while, starting with statistics and evolving lately into exploratory data analysis, data mining and business intelligence, the new dimensions of big data (volume, variety, velocity, etc.) make it very hard to process and analyze data online, and derive good conclusions. In particular, relational DBMSs, which are at the heart of any information system, have been lately criticized for their “one size fits all” approach. Although they have been able to integrate support for all kinds of data (e.g., multimedia objects, XML and JSON documents and new functions), this has resulted in a loss of performance and flexibility for new data-intensive applications. To address this grand challenge, data science is emerging as a new science that combines data management, statistics and machine learning, visualization and human-computer interactions to collect, clean, integrate, analyze and visualize big data. The ultimate goal is to create new data products and services, as well as training legions of data scientists. In this talk, I will introduce data science, in relation to databases, and discuss its impact on information systems. I will also illustrate the main opportunities and risks, in particular by telling my favorite stories about the good, the bad and the ugly.

Permanent link to this article: https://team.inria.fr/zenith/junior-conference-on-data-science-and-engineering-patrick-valduriez-from-databases-to-data-science-impact-on-information-systems/

Zenith seminar: Ji Liu “Scientific Workflow Scheduling with Provenance Support in Multisite Cloud” 24 june 2016

Séminaire du Pole Données Connaissances et Zenith: vendredi 24 juin 2016, 11h, salle 02/124
Scientific Workflow Scheduling with Provenance Support in Multisite Cloud
Ji Liu
Zenith team
Microsoft-Inria Joint Centre and LIRMM

Recently, some Scienti c Workflow Management Systems
(SWfMSs) with provenance support (e.g. Chiron) have been deployed
in the cloud. However, they typically use a single cloud site. In this
paper, we consider a multisite cloud, where the data and computing
resources are distributed at di fferent sites (possibly in di fferent regions).
Based on a multisite architecture of SWfMS, i.e. multisite Chiron, we
propose a multisite task scheduling algorithm that considers the time
to generate provenance data. We performed an experimental evaluation
of our algorithm using Microsoft Azure multisite cloud and two real-life
scienti c workflows, i.e. Buzz and Montage. The results show that our
scheduling algorithm is up to 49:6% better than baseline algorithms in
terms of execution time

Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-ji-liu-scientific-workflow-scheduling-with-provenance-support-in-multisite-cloud/

Zenith seminar: Antoine Liutkus “Modèles probabilistes pour le filtrage des formes d’ondes: application au démixage de la musique” 23 june 2016

Séminaire du Pole Données Connaissances et Zenith: jeudi 23 juin, 10h30, salle 02/124
Modèles probabilistes pour le filtrage des formes d’ondes. Application au démixage de la musique.
Antoine Liutkus, Inria Nancy

Dans cet exposé, je présenterai mon travail de recherche sur des modèles probabilistes adaptés aux formes d’ondes. Je montrerai comment j’ai appliqué ces modèles à la séparation de sources. En audio, il s’agit d’une opération de “démixage”: récupérer les différents sons présents dans un mix.
D’un point de vue théorique, je parlerai des méthodes récentes de filtrage multicanal, de leurs liens avec l’apprentissage automatique: factorisation en matrices non-négatives, processus Gaussiens, réseaux de neurones profonds, processus alpha-stables, etc.
D’un point de vue applicatif, je me concentrerai sur le cas du débruitage et de la séparation de la musique. Je parlerai de mon ANR jeune chercheur qui vient de commencer, où il s’agit de faire profiter les ethnomusicologues de développements récents en traitement du signal

Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-antoine-liutkus-modeles-probabilistes-pour-le-filtrage-des-formes-dondes-aapplication-au-demixage-de-la-musique/

Archives ouvertes et bases de publications “Exploration et analyse des sources de données pour la recherche et ses environnements” 23 mai 2016

Lundi 23 mai 2016, 9h-17h

IRHT (Institut de recherche et d’histoire des textes, 40 avenue d’Iéna, 75116 Paris)

Appel à communications

L’évolution numérique majeure de la recherche scientifique et de ses impacts societaux, économiques et industriels permet maintenant d’avoir accès aux données scientifiques tels que les textes publiés dans des archives ouvertes, des revues ou des conférences ainsi que les données d’expérimentation ou les résultats de simulation, mais également, et c’est fondamental, aux données d’usage des différents services qui se mettent en place. 

 

Le développement de méthodes d’analyse de ces données, ou l’application de méthodes existantes, est une étape inévitable de cette mutation. De la même manière que le monde du business a intégré avec succès les méthodes d’analyse de ses données, le monde académique envisage maintenant les nombreuses possibilités offertes par ces méthodes sur les données scientifiques. Ces méthodes couvrent tout le processus de valorisation des données, leur préparation, leur analyse (apprentissage, fouille, statistiques, recommandation…) jusqu’à l’interprétation des résultats, ainsi que leur visualisation. Les enjeux pour les données de publication sont cruciaux par la valeur que ces méthodes peuvent ajouter au monde de la recherche. Ces enjeux peuvent concerner l’aide aux chercheurs, l’ouverture au grand public (avec la mise à disposition d’indicateurs transparents), ou encore la gestion de la recherche ou la prospective scientifique. Tels sont les constats formulés lors du colloque “Publication scientifique, innovation et services à la recherche” des 9 et 10 novembre 2015 à Meudon, organisé conjointement par l’ADBU, Couperin, EPRIST et la DIST du CNRS.

 

L’aide aux chercheurs peut prendre la forme de recommandations (e.g. quels articles concernent un sujet particulier pour constituer une bibliographie, en relation avec des requêtes similaires ? Quels collègues sont actifs sur ce sujet, et quels sont les co-auteurs dans le graphe de relations ? Qui sont les auteurs dont les publications sont souvent consultées ensemble dans des requêtes des usagers d’une plateforme comme HAL ? etc.). Elle peut aussi venir de la détection de tendances dans les mots clés enregistrés dans les publications d’un domaine, d’une meilleure compréhension des facteurs d’impact et de visibilité des travaux d’un chercheur, ou encore de la corrélation entre jeux de données disponibles publiquement pour permettre une plus large diffusion de ces derniers.

 

Le grand public pourrait disposer d’indicateurs transparents sur les activités de recherche d’un territoire (département, région, pays) en lien avec les données disponibles (e.g. les travaux sont-ils issus d’un laboratoire privé, public, ou une collaboration entre les deux ? Quelle est la source du financement ? Quelle est l’ancienneté de l’équipe sur le sujet ? etc.).
Enfin, la gestion de la recherche peut se voir suggérer, par la communauté des chercheurs analysant ces données, de nouveaux descripteurs qui permettent, par exemple, d’évaluer l’impact d’un appel à projet et de son orientation sur les publications qui ont suivi dans les années suivantes ; de comprendre les collaborations locales, nationales ou internationales ; de mieux situer la recherche publique et la recherche privée (en termes de sujets, de collaborations, de relations internationales, etc.) ; ou encore de situer les laboratoire entre eux selon les domaines de publications, les conférences auxquels ils participent ou les interactions entre auteurs.

 

L’objectif de cette journée organisée conjointement par Inria et le CNRS, est triple :
  • Présenter des corpus de données réelles préparées et/ou annotées, permettant d’explorer et d’analyser les données de la recherche. Ces corpus évolueront selon les échanges de cette journée, puis seront mis à disposition dans le cadre d’un appel à projet ultérieur. Cette journée regroupera donc les chercheurs et les fournisseurs de services et de données scientifiques pour mieux comprendre ces données et comment les utiliser pour mettre à disposition des chercheurs, des équipes et des organismes de recherche des services à haute valeur ajoutée.
  • Présenter des travaux (les communications retenues pour cette journée) permettant de mieux connaitre les interactions possibles entre le paysage actuel de la recherche en analyse de données et celui des données de la recherche. Les présentations auront pour objectif d’expliquer ces travaux et d’en dessiner une prospective sur des applications possibles aux données de la recherche.
  • Présenter un appel à projet, en cours de réflexion, autour de ces données. Les participants et les travaux présentés enrichiront les thèmes de l’appel afin d’assurer la meilleure adéquation avec les possibilités offertes par l’analyse de données.
Le principal corpus présenté lors de cette journée, et qui sera au centre de l’appel à projet à venir, concerne les données de HAL. Il représente environ 300 000 articles, liés à plus d’un million de notices métadonnées. Ce jeu de données sera téléchargeable pour être utilisé localement. On pourra également considérer les extractions faites à partir des pdf comme les images, les figures d’expérimentations, etc. Les données d’usage (consultation des articles, pages auteurs, etc.) seront également présentées et mises à disposition dans un cadre éthique approprié.
Nous pourrons aussi considérer les données suivantes (et les présenter, selon confirmation des intervenants) :
  • Les données ISTEX  représentent plus de 16 millions d’articles de collections rétrospectives couvrant tous les domaines de la littérature scientifique. Des sous-corpus peuvent être construits et extraits à travers une API (https://api.istex.fr/documentation/)
  • de façon plus générale des corpus d’étude ou des données primaires de la recherche mutualisés au sein d’entrepôts de données nationaux ou internationaux.
Les communications attendues sont liées aux questions d’analyse de données de manière générale (constitution des corpus, apprentissage, fouille, statistiques, recommandation, visualisation, etc.). Elles pourront être généralistes (présenter un domaine, un état de l’art, une vision) ou ciblées (des cas d’études ou des applications sur, par exemple, des données scientifiques, des données textes, des graphes issus de réseaux sociaux… la liste n’est pas restrictive). L’objectif étant de créer une dynamique en ouvrant le plus largement possible cette journée aux différentes équipes qui, par la suite, pourront répondre à un appel à projet autour de ces données de la recherche.

 

Les propositions sont à envoyer à data4ist@inria.fr. Elles mentionneront le titre, les auteurs et leur affiliation, un résumé de 10 à 15 lignes et un court développement (entre 1 et 2 pages) reprenant ou référençant éventuellement des éléments déjà publiés. Elles pourront être rédigées en anglais ou en francais.

 

Modalités

 

Vendredi 1 avril 2016 : réception des propositions de communications
Mercredi 13 avril 2016: notification
Lundi 23 mai 2016: déroulement de la journée à Paris 

 

Les communications retenues donneront lieu à une présentation de 15 minutes. À la fin de chaque session, une discussion générale se tiendra sur la base des présentations données afin de mieux préciser les possibilités envisageables sur les données de la recherche.
Lieu : IRHT (Institut de recherche et d’histoire des textes, 40 avenue d’Iéna, 75116 Paris)

 

Organisateurs de la journée :
  • Patrice Bellot (Aix-Marseille Université – OpenEdition)
  • Christine Berthaud (CNRS)
  • Daniel Egret (PSL)
  • Renaud Fabre (CNRS)
  • Odile Hologne (INRA)
  • Claude Kirchner (inria)
  • Florent Masseglia (Inria)
  • Jean-Marie Pierrel (Université de Lorraine)
  • Laurent Romary (Inria)
  • Ken Takeda (CNRS)

Permanent link to this article: https://team.inria.fr/zenith/archives-ouvertes-et-bases-de-publications-exploration-et-analyse-des-sources-de-donnees-pour-la-recherche-et-ses-environnements/

Workshop Data Science @ IBC 2016, 15 june 2016 – 14h-17h

Workshop Data Science @ IBC 2016,  15/6/2016 – 14h-17h

Campus Saint Priest, Bat 5, 1/124, Institut de Biologie Computationnelle (http://www.ibc-montpellier.fr)

Organisé par: Esther.Pacitti@lirmm.fr

13h30 Café d’accueil

14h Introduction, Esther Pacitti

Equipe Zenith, Univ. Montpellier, Inria, LIRMM

Data Science: opportunities and risks

Patrick Valduriez

Equipe Zenith, Inria, Univ. Montpellier, LIRMM

Data has been quoted as the new oil, to reflect that big data can be turned into high-value information and new knowledge. Although data analysis has been around for a while, starting with statistics and evolving lately into exploratory data analysis, data mining and business intelligence, the new dimensions of big data (volume, variety, velocity, etc.) make it very hard to process and analyze data, and derive good conclusions. To address this grand challenge, data science is emerging as a new science that combines computer science, statistics and machine learning, visualization and human-computer interactions to collect, clean, integrate, analyze and visualize big data. The ultimate goal is to create new data products and services, as well as training legions of data scientists. In this talk, I will introduce data science, including big data and cloud technologies. I will also illustrate the main opportunities and risks, in particular by telling my favorite stories about the good, the bad and the ugly.

Fast data analytics for time series and other ordered data

Dennis Shasha

New York University and Inria (int. chair in Zenith)

The relational model is based on a single data type and a few operations: unordered tables which can be selected, projected, joined, and aggregated. This model is in fact unnecessary for simplicity and needlessly limits the expressive power, making it difficult to express query on ordered data such as time series data and other sequence data.

This talk presents a language for expressing ordered queries, optimization techniques and performance results. The talk goes on to present experiments comparing the system against other popular data analytic systems including Sybase IQ, Python’s popular Pandas library and MonetDB using a variety of benchmarks including the ones that those systems use themselves. On the same hardware, our system is faster.

Discussion

Permanent link to this article: https://team.inria.fr/zenith/workshop-data-science-ibc-2016-1562016-14h-17h/

Zenith seminar: Cetin Sahin “PINED-RQ: A Differentially Private Index on Encrypted Databases for Supporting Range Queries” 9 may 2016

Title: PINED-RQ: A Differentially Private Index on Encrypted Databases for Supporting Range Queries
By Cetin Sahin, PhD student at UCSB (http://www.cs.ucsb.edu/~dsl/?q=content/cetin-sahin)
Date : 9/5/2016 16h
Salle : 1/124
Abstract: Despite the benefits of Database-as-a-Service cloud services (DBaaS), legitimate privacy concerns continue hindering their adoption when data is personal and sensitive. To tackle this problem, we propose PINED-RQ, a privacy-preserving auxiliary data structure allowing the DBaaS provider to perform range queries efficiently over an encrypted database. The data owner, who wants to outsource her database to a public cloud provider, initially builds a differentially private index over a database, and then encrypts the entire database using semantically secure encryption scheme before shipping it to the public cloud. After outsourcing to the cloud, the cloud server processes queries with the help of the index and return corresponding results to end-users. The system provides strong security by employing differential privacy and semantically-secure encryption scheme jointly. Moreover, this system is capable of supporting update operations. Supporting updates with a differentially private index is very challenging. However, PINED-RQ overcomes the challenges by managing privacy budget wisely and performing update operations with the help of the data owner. PINED-RQ also introduce a probabilistic query execution strategy to enable end-users to ask analytical queries with some statistical guarantees like recall, precision and confidence interval.

 

Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-cetin-sahin-pined-rq-a-differentially-private-index-on-encrypted-databases-for-supporting-range-queries/

Zenith seminar: Saber Salah “Parallel Itemset Mining in Massively Distributed Environments” 13 april 2016

“Parallel Itemset Mining in Massively Distributed Environments”
Saber Salah
April 13, 2016 at 10am.
Room 3/124 (bat 5).

Abstract:

In this talk, first we address the problem of frequent itemset mining in big data. We call for specific data placement techniques in massively distributed environments to improve  the  performance  of  parallel  frequent itemset  mining  (PFIM)  algorithms. We thoroughly study and investigate the impact of combining such a frequent itemset algorithm with a specific data placement strategy.  We show that an adequate placement of the  data  in  a  massively  distributed  environment  along  with  a specific  frequent  itemset mining algorithm can make a mining process either inoperative or completely significant. We propose ODPR (Optimal Data-Process Relationship) our solution for fast mining of frequent itemsets in MapReduce.  Our method allows discovering itemsets from massive data sets, where standard solutions from the literature do not scale. Indeed, in a massively distributed environment, the arrangement of both the data and the different processes can make the global job either completely inoperative or very effective. Our proposal has been evaluated using real-world data sets and the results illustrate a significant scale-up obtained with very minimum support which confirms the effectiveness of our approach. Generally, in a massively distributed environment (e.g., MapReduce or Spark), minimizing the number of jobs results in a significant performance of the process being executed.   In the case of frequent itemset mining  problem,  discovering frequent itemsets in just one simple job would be preferable.  To this end, we propose a highly scalable, parallel frequent itemset mining algorithm, namely Parallel Absolute Top Down (PATD). PATD algorithm renders the mining process of very large databases (up to Terabytes of data) simple and compact. Its mining process is made up of only one parallel job, which dramatically reduces the mining runtime, the communication cost and the energy power consumption overhead, in a distributed computational platform. Based on a clever and efficient data partitioning strategy, namely Item Based Data Partitioning (IBDP), the PATD algorithm mines each data partition independently, relying on an absolute minimum support instead of a relative one. PATD has been extensively evaluated using real-world datasets. Our experimental results suggest that PATD algorithm is significantly more efficient and scalable than alternative approaches.

The second problem which we address in this talk is discovering maximally informative k-itemsets (miki) in big data based on joint entropy. We propose PHIKS (Parallel Highly Informative K-ItemSet)  a  highly  scalable,  parallel miki mining  algorithm  that renders the mining process of large scale databases (up to Terabytes of data) succinct and effective.   Its mining process is made up of only two efficient parallel jobs. With PHIKS, we provide a set of significant optimizations for calculating the joint entropies of the miki having different sizes, which drastically reduces the execution time of the mining process.  PHIKS has been extensively evaluated using massive real-world data sets.  Our experimental results confirm the effectiveness of our proposal by the significant scale-up obtained with high itemsets length and over very large database.

Permanent link to this article: https://team.inria.fr/zenith/zenith-seminar-saber-salah-parallel-itemset-mining-in-massively-distributed-environments/

Journée “La science des données à l’IRIT”: Patrick Valduriez “Data Science: opportunities and risks”

Data Science: opportunities and risks

Patrick Valduriez

Journée “La science des données à l’IRIT”, Toulouse, 11 avril 2016.

Data has been quoted as the new oil, to reflect that big data can be turned into high-value information and new knowledge. Although data analysis has been around for a while, starting with statistics and evolving lately into exploratory data analysis, data mining and business intelligence, the new dimensions of big data (volume, variety, velocity, etc.) make it very hard to process and analyze data, and derive good conclusions. To address this grand challenge, data science is emerging as a new science that combines computer science, statistics and machine learning, visualization and human-computer interactions to collect, clean, integrate, analyze and visualize big data. The ultimate goal is to create new data products and services, as well as training legions of data scientists. In this talk, I will introduce data science, including big data and cloud technologies. I will also illustrate the main opportunities and risks, in particular by telling my favorite stories about the good, the bad and the ugly.

See the presentation slides.

Permanent link to this article: https://team.inria.fr/zenith/journee-la-science-des-donnees-a-lirit-patrick-valduriez-data-science-opportunities-and-risks/

“Les données en question” par Stéphane Grumbach et Patrick Valduriez

donnees7502Interstices a publié l’article “Les données en question” écrit par Stéphane Grumbach et Patrick Valduriez.

L’occasion de faire le point sur ce que sont vraiment les données, et d’entreprendre une réflexion de fond sur leur place et leur impact dans nos vies. Les enjeux liés aux données y sont abordés de manière claire et synthétique.

Patrick et Stéphane expliquent avec pédagogie et recul des éléments techniques, mais aussi historiques et sociétaux, tout en mettant les bons mots sur les concepts clés.

Permanent link to this article: https://team.inria.fr/zenith/les-donnees-en-question-par-patrick-valduriez-et-stephane-grumbach/