February 12, 2016
La convergence entre le HPC et les applications Big-Data nécessite un réseau d’interconnections performant entre les machines. Dans ce but Atos a développé son propre réseau d’interconnections BXI afin de fournir un meilleur contrôle et de meilleures performances aux utilisateurs. Les problématiques sont diverses: réduire l’utilisation cpu pour les communications, réduire l’impact de la congestion réseau, résilience aux pannes matérielles… La résilience aux pannes des équipements du réseau va devenir cruciale sur les futures systèmes exaflopiques. Le nombre de switches dans le réseau d’interconnections sera équivalent au nombre de noeuds de calcul présents sur les plateformes actuelles (environ 11 000). Ce grand nombre d’équipements impliquera une augmentation de la fréquence de pannes en proportion. L’objectif est donc de recalculer dynamiquement les tables de routage dans un réseau "wormhole switching" sans introduire de deadlocks afin de masquer les pannes. Le temps de calcul des tables de routage est important dû au nombre de destinations dans le réseau (jusque 64K) mais aussi dû au routage adaptatif qui nécessite de calculer plusieurs routes pour chaque destination. Dans ces réseaux le routage adaptatif est une "feature” intéressante pour limiter l’impact de la congestion. En plus du temps de calcul important, le routage adaptatif peut aussi avoir un impact négatif sur la congestion en fonction du pattern de communication. Cet effet négatif est principalement important avec les communications de type I/O. Pour synthétiser cette présentation se focalisera sur :
- les algorithmes de routage existants dans la littérature,
- l’architecture utilisée pour masquer les pannes,
- la prise en compte le type des noeuds dans le routage.