Sep 20

HiePACS Working Group

The next HiePACS Working Group will take place on Friday 22 September 2017 at 9:30 in Alan Turing 2.
Alain Franc, INRA BioGeCo & INRIA Pleiade

Une partie non négligeable de « machine learning » ou de la reconnaissance de formes repose in fine sur des méthodes linéaires d’analyse des données, qui se sont fortement développées dans les années 70-80 avec l’essor du calcul numérique matriciel. Plusieurs méthodes classiques se rattachent à cet ensemble, et partent soit de matrices éléments x caractéristiques (ACP, AFC), soit de matrices de distances (MDS). Les données peuvent être qualitatives (AFC) ou quantitatives (ACP). Il peut y avoir, ou non, des contraintes extérieures (ACP-VI, AFC-VI). Plusieurs tableaux peuvent être étudiés simultanément dans une sorte de généralisation multidimensionnelle de la corrélation (Analyse Canonique). Toutes ces méthodes reposent sur une chaîne parcourant les données → le prétraitement → le traitement → le post-traitement. Le traitement est en général soit une diagonalisation, soit une décomposition en valeurs singulières, et est en général cubique en fonction du nombre d’éléments à traiter (dimensions de la matrice). Le prétraitement repose souvent sur des produits matriciels, des marginalisations, des racines carrées de matrices. On est ainsi amené à créer des chaînes de calcul matriciel, avec plusieurs étapes, parfois complexes, sur des matrices denses de grande taille. Un enjeu est d’utiliser les outils et méthodes récentes du calcul matriciel dense, pour optimiser ces chaînes et passer à l’échelle en traitement des données en conservant la qualité des méthodes, c.a.d. sans heuristiques. Plusieurs chaînes de traitement seront ainsi présentées, pour discuter les possibilités d’optimisation et passage à l’échelle.

May 02

Séminaire : Pr Tucker Carrington, Queen’s University, Kingston, Ontario

Nous avons le plaisir d’accueillir le Pr Tucker Carrington  de  Queen’s University , Kingston, Ontario  les 2 et 3 mai. Il donnera un séminaire le 2 mai à 14h – Amphi du LABRI

Titre 
New variational methods for computing vibrational spectra of molecules with up to 11 atoms

Abstract
I shall present two new variational methods for computing vibrational spectra. Both rely on the Hamiltonian being a sum of products (SOP). To use a variational method one represents wavefunctions in a basis and uses methods of numerical linear algebra to determine the basis function coecients. A direct product basis has the advantage that it enables one to efficiently calculate the eigenvalues and eigenvectors of the Hamiltonian matrix using an iterative eigensolver. A direct product basis has the crucial disadvantage that the memory cost of a calcultion scales exponentially with the number of atoms in the molecule. One of the new methods uses an expanding basis of products of 1D functions and an iterative eigensolver. For ethylene oxide (7 atoms), converged results are obtained with a basis that is many orders of magnitude smaller than the direct product basis with which similar results would be obtained. The second new method uses sum-of-product basis functions stored in canonical polyadic (CP) tensor format and generated by evaluating matrix-vectorproducts. The memory cost scales linearly with the number of atoms in the molecule. Recent improvements make it possible to compute the spectrum of cyclopentadiene (11 atoms).

May 02

Soutenance de thèse : Pierre Blanchard

Jeudi 16 février – amphi du Labri – 15h30

Titre : “Fast hierarchical algorithms for the low-rank approximation of matrices, with applications to materials physics and geostatistics.”

Résumé : Les techniques avancées pour l’approximation de rang faible des matrices sont des outils de reduction de dimension fondamentaux pour un grand nombre de domaines du calcul scientifique. Les approches hiérarchiques comme la méthode multipole rapide (FMM) bénéficient de la structure de rang faible par bloc de certaines matrices pour réduire le coût de calcul de problèmes d’interactions à $n$-corps à $O(n)$ opérations. Afin de mieux traiter des noyaux d’interaction complexes de natures arbitraires, des formulations FMM dites “kernel-independent” ont récemment vu le jour, telles que les FMM basées sur l’interpolation polynomiale. Cependant elles deviennent très coûteuses pour les noyaux tensoriels à fortes dimensions, c’est pourquoi nous avons développé une nouvelle formulation FMM efficace basée sur l’interpolation polynomiale. Cette méthode a été implémentée dans la bibliothèque parallèle ScalFMM et repose sur une grille d’interpolation régulière et la transformée de Fourier rapide (FFT). Dans un premier temps, nous avons étendu les FMM basées sur grille de Chebyshev et sur grille régulière au calcul des champs élastiques isotropes mis en jeu dans des simulations de Dynamique des Dislocations (DD). Dans un second temps, nous avons utilisé notre nouvelle FMM pour accélérer une factorisation SVD de rang $r$ par projection aléatoire et ainsi permettre de générer efficacement des champs Gaussiens aléatoires sur de grandes grilles hétérogènes.

Dec 08

Soutenance de thèse : Maria Predari

Vendredi 9 décembre – 14h30 – salle Ada Lovelace

Titre : Load Balancing for Coupled Simulations

Résumé : In the field of scientific computing, the load balancing is an important step conditioning the performance of parallel programs. The goal is to distribute the computational load across multiple processors in order to minimize the execution time. This is a well-known problem that is unfortunately NP-hard. The most common approach to solve it is based on graph or hypergraph partitioning method, using mature and efficient software tools such as Metis, Zoltan or Scotch.
Nowadays, numerical simulation are becoming more and more complex, mixing several models and codes to represent different physics or scales. Here, the key idea is to reuse available legacy codes through a coupling framework instead of merging them into a standalone application. For instance, the simulation of the earth’s climate system typically involves at least 4 codes for atmosphere, ocean, land surface and sea-ice . Combining such different codes are still a challenge to reach high performance and scalability. In this context, one crucial issue is undoubtedly the load balancing of the whole coupled simulation that remains an open question. The goal here is to find the best data distribution for the whole coupled codes and not only for each standalone code, as it is usually done. Indeed, the naive balancing of each code on its own can lead to an important imbalance and to a communication bottleneck during the coupling phase, that can dramatically decrease the overall  performance. Therefore, one argues that it is required to model the coupling itself in order to ensure a good scalability, especially when running on tens of thousands of processors. In this work, we develop new algorithms to perform a coupling-aware partitioning of the whole application.

 

Sep 27

HiePACS working group – Friday September 30 – 9:00 – Ada Lovelace

The next HiePACS working group will be Friday September 30
9:00 – 11:30  in Ada Lovelace.
It will consist of a survey on recent activities on hybrid solvers in
the team.
Note that there will also be a presentation of Nathalie Moller
(UVSQ/Dassault) at 14:30 the same day on FMM

Sep 14

Soutenance de thèse : Jean-Marie COUTEYEN

Lundi 19 septembre – 14:00 – Amphi du LaBRI

Titre : Parallélisation et passage à l’échelle du code FLUSEPA

Résumé :

Il existe de nombreux types de satellites qui fournissent des services utiles au quotidien : l’imagerie satellite, les télécommunications, la géolocalisation… Leur mise en orbite passe par l’utilisation de lanceurs, dont la conception est une des activités d’Airbus Safran Launchers. Pour la conception de lanceurs, l’accès à l’expérience n’est pas évident : l’utilisation de souffleries ne permet pas de tester toutes les situations critiques auxquelles un lanceur sera confronté au cours de sa mission. La simulation numérique est donc essentielle pour l’industrie aérospatiale. Pour disposer de simulations plus fidèles, il est nécessaire de disposer et de pouvoir exploiter une importante puissance de calcul via l’utilisation de supercalculateurs. Ces supercalculateurs évoluent rapidement et sont de plus en plus complexes ; il est alors nécessaire d’adapter les codes existants pour pouvoir les utiliser efficacement. Aujourd’hui, il semble de plus en plus nécessaire d’utiliser des abstractions afin de pouvoir porter les codes sur les nouvelles machines avec un coût humain raisonnable et une bonne portabilité des performances.

Airbus Safran Launchers a développé depuis plus de 20 ans le code de calcul FLUSEPA qui convient particulièrement bien à la modélisation des phénomènes instationnaires avec topologie variable tels que pour les séparations d’étages et les décollages de lanceurs spatiaux. Ce code est basé sur une formulation Volumes Finis. La prise en compte des mouvements relatifs repose sur une technique originale de chevauchement de maillages conservative et la technique d’intégration temporelle adaptative explicite permet de calculer très efficacement les évolutions rapides.

Les travaux réalisés durant cette thèse portent sur la parallélisation du code FLUSEPA, qui au départ n’était parallélisé qu’en mémoire partagée via OpenMP. Une première version distribuée du code a été réalisée et utilise une programmation hybride MPI+OpenMP pour des clusters de calcul. Les gains apportés par cette version ont été évalués via l’utilisation de deux calculs industriels. Un démonstrateur basé cette fois-ci sur un modèle de programmation à base de graphe de tâches avec l’utilisation d’un support d’exécution a aussi été réalisé pour répondre de manière plus adéquate au problème d’efficacité posé par la version MPI+OpenMP.

May 13

Le HPC au service de l’électromagnétisme et de l’acoustique

présentation de Guillaume Sylvand, Ingénieur Expert Airbus Group Innovations, HIEPACS

le vendredi 13 mai 2016 de 13h à 14h, Salle Ada Lovelace, Inria

Des maquettes testées en soufflerie aux essais en vol, en passant par la conception, la construction, l’acheminement et l’assemblage de chacune des pièces de l’appareil, Airbus Group réalise un très grand nombre de phases pour concevoir un avion. Bien avant les premiers travaux des bureaux d’études, des ingénieurs manipulent des équations modélisant les physiques essentielles de l’avion (aérodynamique, mécanique des structures, électromagnétisme, acoustique, …) afin de garantir une conception fiable. Les enjeux sont colossaux.

Dans son exposé, Guillaume Sylvand s’intéressera plus particulièrement aux problématiques d’électromagnétisme et d’acoustique et nous expliquera comment en modélisant sur ordinateur des problèmes d’ondes très complexes (à l’aide notamment d’outils développés chez Inria), on parvient à une résolution performante qui contribue à minimiser le coût de développement des appareils de demain.

Mar 10

HiePACS Working Group

The next HiePACS Working Group will take place on Monday April 18 at 9:30 in Ada Lovelace.


Context
:
Robert Clay and Keita Teranishi are visiting HiePACS and Inria Bordeaux HPC teams on
Monday April 18.

The morning will be dedicated to two talks on runtime systems and resilience, respectively.

9:30 Robert Clay (SNL)

 

Title: The DHARMA Approach to Asynchronous Many Task Programming

 

Abstract: Asynchronous Many-Task (AMT) programming models and runtime systems hold the promise to address key issues in future extreme-scale computer architectures, and hence are an active exascale research area. The DHARMA project at Sandia National Labs is working towards three complementary AMT research goals: 1) co-design a programming model specification that incorporates both application requirements and lessons
learned from other AMT efforts; 2) design an implementation of that spec, leveraging existing components and expertise from the community; 3) engage the AMT community longer term to define best practices and ultimately

standards.  In this talk we discuss recent results and current state of the DHARMA project. We highlight our recent comparative analysis study and how it informs our higher-level design philosophy. We introduce features from our developing spec and where that spec fits in the AMT design space. Finally we discuss the effort remaining to achieve a DHARMA implementation.

 

10:30 Coffee break

 

11:00 Keita Teranishi (SNL)
 
Title: FENIX for Scalable Online Application Resilience
 
Abstract: Major exascale reports indicate that future HPC systems will suffer shorter Mean Time Between Failures (MTBF) due to the increase in system complexity and the shrink of hardware components. For such unreliable
computing systems, it is reasonable for application users to explicitly manage the response from frequent system failures.  Traditionally, checkpoint-restart (CR) has been a popular resilience enhancement for application users, but incurring some undue cost associated with the access to secondary storage (distributed IO) and the global restart of parallel programs.  Interestingly, anecdotal evidences suggest that the majority of large scale HPC application failures attributes to failures at single node. If this holds, the traditional CR makes use of unnecessary system resource to contain any scales of application failures, thereby suggesting a new approach to adapt the scale of failures. We have proposed Local Recovery Local Failure (LFLR) concept to make parallel applications to recover locally for single node  (local) failures without global program termination and restart.  In joint-effort with 
Rutgers University, we have developed a prototype software, FENIX, to realize scalable online application recovery using MPI-ULFM (a fault tolerant MPI prototype). In this talk, we will discuss the architecture of FENIX and its capability and future research directions.

Feb 15

Soutenance de thèse : Bérenger Bramas

Bérenger Bramas soutiendra sa thèse le lundi 15 février à 14h30 salle Ada Lovelace.

“Optimization and Parallelization of the Boundary Element Method for the Wave Equation in Time Domain”

 

Committee:

George Biros – Professor – The University of Texas at Austin
Coulaud Olivier (Advisor) – Research Director – Inria Bordeaux – Sud-Ouest
Pascal Havé – Researcher – IFP Energies nouvelles
Stéphane Lanteri – Research Director – Inria Sophia Antipolis
Raymond Namyst – Professor – The University of Bordeaux
Guillaume Sylvand (Advisor) – Researcher – Airbus Group Innovations
Isabelle Terrasse – Research Director – Airbus Group
Richard Vuduc – Associate Professor – Georgia Institute of Technology

Abstract:
The time-domain BEM for the wave equation in acoustics and electromagnetism is used to simulate the propagation of a wave with a discretization in time. It allows to obtain several frequency-domain results with one solve. In this thesis, we investigate the implementation of an efficient TD-BEM solver using different approaches. We describe the context of our study and the TD-BEM formulation expressed as a sparse linear system composed of multiple interaction/convolution matrices. This system is naturally computed using the sparse matrix-vector product (SpMV). We work on the limits of the SpMV kernel by looking at the matrix reordering and the behavior of our SpMV kernels using vectorization (SIMD) on CPUs and an advanced blocking-layout on Nvidia GPUs. We show that this operator is not appropriate for our problem, and we then propose to reorder the original computation to get a special matrix structure. This new structure is called a slice matrix and is computed with a custom matrix/vector product operator. We present an optimized implementation of this operator on CPUs and Nvidia GPUs for which we describe advanced blocking schemes. The resulting solver is parallelized with a hybrid strategy above heterogeneous nodes and relies on a new heuristic to balance the work among the processing units. Due to the quadratic complexity of this matrix approach, we study the use of the fast multipole method (FMM) for our time-domain BEM solver. We investigate the parallelization of the general FMM algorithm using several paradigms in both shared and distributed memory, and we explain how modern runtime systems are well-suited to express the FMM computation. Finally, we investigate the implementation and the parametrization of an FMM kernel specific to our TD-BEM, and we provide preliminary results.

Jan 25

Solhar Meeting @ Bordeaux

Solhar meeting : Monday January 25th

Program:
09:00-09:30 Terry Cojean    : “Resource aggregation in task-based
applications over accelerator-based multicore machines”
09:30-10:00 Suraj Kumar     : “Are Static Schedules so Bad ? A Case
Study on Cholesky Factorization”
10:00-10:30 Thomas Lambert  : “A New Approximation Algorithm for Matrix
Partitioning in Presence of Strongly Heterogeneous Processors”

10:30-11:00 Break

11:00-11:30 Loris Marchal   : “A reasonable model of malleable tasks for
linear algebra task graphs”
11:30-12:00 Berenger Bramas : “Fast Multipole Methods over task-based
runtime systems”

12:00-14:00 Lunch break

14:30-15:00 Marc Sergent    : “Controlling the Memory Subscription of
Applications with a Task-Based Runtime System”
15:00-15:30 Emmanuel Agullo : “StarPU-Simgrid : Overview and current work”
15:30-16:00 Alfredo Buttari : “Performance analysis of parallel codes on
heterogeneous systems”
16:00-16:30 Samuel Thibault : “Open discussion about StarPU”