CAIRN Seminars Archives for 2015-2016

Slides and support on CAIRN Private Share (when available / restricted access)

Functional Verification of Integer Arithmetic Circuits: an Algebraic Approach
Tuesday, 5th July 2016, 10h30 – 11h30, Lannion room 309N
Maciej Ciesielski — Department of Electrical & Computer Engineering, University of Massachusetts (UMASS), Amherst, USA
Abstract: Functional verification of arithmetic circuits and data paths remains a challenging problem in hardware verification. Boolean logic techniques based on binary decision diagrams (BDDs) and satisfiability (SAT) solvers, cannot handle complex arithmetic designs as they require “bit-blasting”, i.e., flattening of the design into bit-level netlists. Approaches that rely on computer algebra and Satisfiability Modulo Theories (SMT) methods are either too abstract to handle the bit-level nature of arithmetic designs or require solving computationally expensive decision problems. Similarly, theorem provers require a significant human interaction and intimate knowledge of the design to guide the proof process.

This talk presents a fundamentally different approach to functional verification of integer arithmetic circuits. It is based on a network flow model, where the computation performed by the circuit is viewed as a flow of binary data through the circuit. The symbolic expression representing the data at the circuit inputs is transformed into a polynomial expression at the primary outputs. For the circuit to be functionally correct, the resulting expression must match the binary encoding at the primary outputs. The procedure conducted in the opposite direction (from the primary outputs to the primary inputs) will extract the arithmetic function implemented by the circuit. Different transformation techniques will be discussed, depending on the type of circuit implementations (structured adder networks vs. purely gate-level circuits). We show that this technique can verify large arithmetic circuits up to 512-bit multipliers with over 2 million gates.

Plateforme matérielle-logicielle d’émulation de fautes pour des opérateurs arithmétiques
Arnaud Tisserand — CNRS-IRISA-CAIRN
Abstract: Nous présentons les premiers développements d’une plateforme matérielle-logicielle d’émulation de fautes dans des opérateurs arithmétiques matériels. Basée sur un réseau de cartes FPGA intégrant des processeurs multicoeurs embarqués et un serveur pour les outils de CAO, elle permet d’évaluer rapidement et précisément de nombreuses techniques de détection de fautes appliquées à différents opérateurs arithmétiques.

Travaux fait en collaboration avec Pierre Guilloux et publiés à la conférence Compas 2016 (HAL PDF)

PhD Defense: Contributions aux opérateurs arithmétiques GF(2^m) et leurs applications à la cryptographie sur courbes elliptiques
Thursday, 19th May 2016, 14h00 – 16h00, Lannion room 020G
Jérémy Métairie — IRISA-CAIRN
Abstract: La cryptographie et la problématique de la securité informatique deviennent des sujets de plus en plus prépondérants dans un monde hyper connecté et souvent embarqué. La cryptographie est un domaine dont l’objectif principal est de protéger l’information, de la rendre inintelligible à ceux ou à celles à qui elle n’est pas destinée. La cryptographie repose sur des algorithmes solides qui s’appuient eux-mêmes sur des problèmes mathématiques réputés difficiles (logarithme discret, factorisation des grands nombres etc). Bien qu’il soit complexe, sur papier, d’attaquer ces systèmes de protection, l’implantation matérielle ou logicielle, si elle est négligée (non protégée contre les attaques physiques), peut apporter à des entités malveillantes des renseignements complémentaires (temps d’exécution, consommation d’énergie, etc.) : on parle de canaux cachés ou de canaux auxiliaires. Nous avons, dans cette thèse, étudié deux aspects. Le premier est l’apport de nouvelles idées algorithmiques pour le calcul dans les corps finis binaires GF(2^m) utilisés dans le cadre de la cryptographie sur courbes elliptiques. Nous avons proposé deux nouvelles représentations des éléments du corps : la base normale permutée et le Phi-RNS. Ces deux nouveautés algorithmiques ont fait l’objet d’implémentations matérielles en FPGA dans laquelle nous montrons que ces premières, sous certaines conditions, apportent un meilleur compromis temps-surface. Le deuxième aspect est la protection d’un crypto-processeur face à une attaque par canaux cachés (dite attaque par templates). Nous avons implémenté, en VHDL, un crypto-processeur complet et nous y avons exécuté, en parallèle, des algorithmes de double-and-add et halve-and-add afin d’accélérer le calcul de la multiplication scalaire et de rendre, de par ce même parallélisme, notre crypto-processeur moins vulnérable face à certaines attaques par canaux auxiliaires. Nous montrons que le parallélisme seul des calculs ne suffira pas et qu’il faudra marier le parallélisme à des méthodes plus conventionnelles pour assurer, à l’implémentation, une sécurité raisonnable.
Leveraging Power Spectral Density for Scalable System-Level Accuracy Evaluation
Tuesday, 8th March 2016, 9h30 – 10h30, Lannion room 309N + Rennes Corsica
Benjamin Barrois — IRISA CAIRN
Abstract: The choice of fixed-point word-lengths critically impacts the system performance by impacting the quality of computation, its energy, speed and area. Making a good choice of fixed-point word-length generally requires solving an NP-hard problem by exploring a vast search space. Therefore, the entire fixed-point refinement process becomes critically dependent on evaluating the effects of accuracy degradation. In this paper, a novel technique for the system-level evaluation of fixed-point systems, which is more scalable and that renders better accuracy, is proposed. This technique makes use of the information hidden in the power-spectral density of quantization noises. It is shown to be very effective in systems consisting of more than one frequency sensitive components. Compared to state-of-the-art hierarchical methods that are agnostic to the quantization noise spectrum, we show that the proposed approach is 5x to 500x more accurate on some representative signal processing kernels.
Démarche basse consommation pour l’implantation des réseaux de neurones avec apprentissage on-chip et en adoptant la reconfiguration dynamique.
Thursday, 25th February 2016, 14h00 – 15h00, Lannion room 309N
Maroua Gam — LabTim (Technologie Imagerie Médicale), Monastir
Abstract: L’un des thèmes que nous traitons a comme objectif de proposer des systèmes totalement embarqués d’aide à la décision médicale en se basant sur l’analyse en temps réel des signaux physiologiques et en particulier l’électroencéphalogramme (EEG) pour la détection de la baisse de vigilance, la prévention des crises épileptiques ou l’analyse du sommeil. Les systèmes embarqués que nous développons sont architecturés autour de circuits reconfigurables FPGA de différentes familles. Les performances requises lors de l’implantation de ces outils sont un temps d’exécution minimal, un encombrement réduit une adaptation par reconfiguration aux données du sujet traité. En effet, l’évolution rapide des équipements portables grand public ou spécifique à un domaine particulier fait que l’adaptabilité des applications pour leurs environnements est devenue un facteur critique pour un bon nombre d’applications. La mise en œuvre de cette option est assurée par un apprentissage en ligne et peut être facilité par une reconfiguration dynamique de la cible. En se basant sur notre expertise dans la gestion de consommation et dans les implantations des RNA avec apprentissage on ligne et adaptables au sujet, nous nous fixons comme objectif dans ce travail d’intégrer la notion de la reconfiguration dynamique pour améliorer les performances globales des implantations. Les indicateurs de réussite de ce travail consisteraient en une implantation à haute intégration eu égard aux besoins en rapidité, en réduction de surface, en adaptabilité et en une basse consommation.

L’exposé fera une présentation du contexte des travaux ainsi que des méthodes utilisées pour aborder cette problématique.
Seront également abordés les différences avec les réseaux de neurones de Hopfield, largement étudiés dans l’équipe Cairn, et dont des implémentations matérielles ont été proposées.

Vers l’intégration d’un réseau d’interconnexion optique au sein d’un MPSoC
Thursday, 10 December 2015, 14h00 – 15h00, Lannion room 309N + Rennes room Corsica
Daniel Chillet — ENSSAT-Université Rennes 1-IRISA-CAIRN
Abstract:
Le paradigme d’intégration 3D et l’évolution de la technologie vers le domaine de l’électronique submicronique permettent l’intégration de milliards de transistors et donc la mise en œuvre de plusieurs centaines de cœurs de calcul dans un même circuit électronique. Ces cœurs, fonctionnant à une fréquence très élevée, conduisent à des systèmes à très hautes performances via la parallélisation massive de l’architecture matérielle. Cependant, ce parallélisme massif requiert le besoin d’assurer de nombreux échanges de données entre les différents cœurs, et augmente donc dramatiquement la consommation énergétique de ce type de système.
Par conséquent, l’interconnexion des cœurs de calcul devient un facteur dominant tant en termes de performance que d’efficacité énergétique. Concevoir ces supports de communication avec des interconnexions électriques traditionnelles est un véritable challenge. En effet, compte tenu du couplage capacitif et inductif des connexions filaires, il est observé une augmentation croissante du bruit et des délais de propagation dans les architectures multi-cœurs, limitant ainsi la bande passante atteignable et les performances générales du système. Les fortes contraintes induites par le goulot d’étranglement des communications entre les cœurs peuvent être résolues efficacement en utilisant l’hétérogénéité supportée par les futures technologies. Ainsi, l’utilisation de technologie permettant l’intégration de composants optique ouvre une voie qu’il est intéressante d’explorer, notamment pour ce qui concerne la définition d’un support de communication entre les coeurs de calcul efficace.
Dans ce contexte, l’intégration d’un réseau optique embarqué sur puce (Optical Network-on- Chip – ONoC) permet d’envisager une augmentation significative de la bande passante et de l’immunité au bruit électromagnétique tout en réduisant la latence des communications et la consommation énergétique. Cependant, la conception d’un système 3D incluant un ONoC n’est pas une garantie de performance et des méthodes et outils supportant l’exploration architecturale sont nécessaires aux développeurs afin de les aider à décider quelles parties du système doivent bénéficier d’interconnexions optiques et comment les communications doivent être gérées sur ce support spécifique afin de respecter un compromis énergie- performance.
Le travaux qui sont menés concernent plusieurs points qui seront abordés durant la présentation. Le dimensionnement de l’architecture est un point important puisqu’il permet de mettre en adéquation les technologies « classiques » avec les technologies de l’optique d’intégrée. La gestion des puissances d’émission des lasers sont également un paramètre important qu’il est nécessaire de contrôler tout en gérant la qualité de la communication. Finalement la gestion à un plus haut niveau de l’allocation du média de communication est abordé afin d’offrir au niveau système le protocole de communication le mieux adapté au support physique présent dans le MPSOC.
PhD Defense: Enhanced FPGA Architecture and CAD Flow for Efficient Runtime Hardware Reconfiguration
Wednesday, 2nd December 2015, 14h00 – 15h30, Lannion room 020G
Christophe Huriaux — IRISA-CAIRN
Abstract: The self-reconfiguration capabilities of modern FPGA architectures pave the way for dynamic applications able to adapt to transient events. The CAD flows of modern architectures are nowadays mature but limited by the constraints induced by the complexity of FPGA circuits. In this thesis, multiple contributions are developed to propose an FPGA architecture supporting the dynamic placement of hardware tasks. First, an intermediate representation of these tasks configuration data, independent from their final position, is presented. This representation allows to compress the task data up to 11× with regard to its conventional raw counterpart. An accompanying CAD flow, based on state-of-the-art tools, is proposed to generate relocatable tasks from a high-level description. Then, the online behavior of this mechanism is studied. Two algorithms allowing to decode and create in real-time the conventional bit-stream are described. In addition, an enhancement of the FPGA interconnection network is proposed to increase the placement flexibility of heterogeneous tasks, at the cost of a 10% increase in average of the critical path delay. Eventually, a configurable substitute to the configuration memory found in FPGAs is studied to ease their partial reconfiguration.
Accelerating Applications on FPGAs using Vector Overlays
Thursday, 26th November 2015, 10h30 – 11h30, Lannion room 309N and Rennes room salle direction INRIA
Guy Lemieux — University of British Columbia, Canada
Abstract: Many FPGA applications have internal data parallelism that can be sped up by a variety of techniques. The traditional technique is direct implementation in VHDL or Verilog, but increasingly common are the use of High-Level Synthesis (HLS) and OpenCL compilers. In this talk, we will instead explore a general technique called FPGA Overlays, where a configurable overlay architecture is placed on the FPGA and additional compiler-like tools are used to program the final solution. We will present the details of one very successful overlay based upon vector processing. Using this overlay technique, we will demonstrate how a software compilation approach using soft vector processors in an FPGA can outperform hard processors.
Full Hardware Implementation of Short Addition Chains Recoding for ECC Scalar Multiplication
Tuesday, 3rd November 2015, 10h30-11h00, Lannion room 309N + Rennes room Corsica
Arnaud Tisserand – CNRS-IRISA-CAIRN
Links: paper presented at Compas 2015 (HAL), work partialy funded by PAVOIS project
Abstract: Ensuring uniform computation profiles is an efficient protection against some side channel attacks (SCA) in embedded systems. Typical elliptic curve cryptography (ECC) scalar multiplication methods use two point operations (addition and doubling) scheduled according to secret scalar digits. Euclidean addition chains (EAC) offer a natural SCA protection since only one point operation is used. Computing short EACs is considered as a very costly operation and no hardware implementation has been reported yet. We designed an hardware recoding unit for short EACs which works concurrently to scalar multiplication. It has been integrated in an in-house ECC processor on various FPGAs. The implementation results show similar computation times compared to non-protected solutions, and faster ones compared to typical protected solutions (e. g. 18 % speed-up over 192 b Montgomery ladder).
Comparaison expérimentale d’architectures de crypto-processeurs pour courbes elliptiques et hyper-elliptiques
Tuesday, 3rd November 2015, 11h00-11h30, Lannion room 309N + Rennes room Corsica
Gabriel Gallin – CNRS-IRISA-CAIRN
Links: paper presented at Compas 2015 (HAL), work partialy funded by HAH and PAVOIS projects
Abstract: Dans ce travail, nous présentons des implantations sur FPGA de différentes configurations des unités de calcul d’un crypto-processeur pour courbes elliptiques et hyper-elliptiques. Nous comparons expérimentalement les performances et coûts relatifs de primitives classiques pour ces deux crypto-systèmes avec un même niveau de sécurité théorique. Nos résultats expéri-mentaux montrent qu’HECC est environ 40 % plus rapide qu’ECC pour un même coût en surface et à niveau de sécurité théorique équivalent.
Vers un système d’exploitation pour la gestion des périodes de recharge de batterie d’un système embarqué
Friday, 23rd October 2015, 10h30-11h30, Lannion room 309N + Rennes room Bréhat
Aymen Gammoudi – Ecole Polytechnique de Tunisie, Laboratoire LISI-INSAT
Abstract: Mes travaux de recherche consistent à développer un nouveau Système d’Exploitation Temps-Réel (RTOS) pour les architectures reconfigurables. Les RTOSs sont devenus indispensables dans les architectures embarquées pour diverses raisons telles que la garantie de l’ordonnancement des tâches, la flexibilité de l’application, la maintenance, la possibilité de supporter des architectures multiprocesseurs. Dans le contexte, des architectures reconfigurables, après un ou plusieurs scénario(s) de reconfigurations, l’exécution d’une application par un RTOS peut conduire à la violation d’une ou plusieurs des contraintes : contrainte de faisabilité Temps-Réel et/ou contrainte d’Énergie et/ou contrainte Mémoire. Pour respecter ces trois contraintes, nous proposons une nouvelle stratégie d’ordonnancement. La solution proposée permet d’exécuter une application correctement et sans violation des contraintes, après un ou plusieurs scénario(s) de reconfiguration.
SoC-based architecture for biomedial signal processing
Thursday, 15th October 2015, 10h30-11h30, Lannion room 309N + Rennes room Bréhat
Liam Marnane – University College Cork, Ireland
Abstract: Over the last decades, many algorithms have been proposed for processing biomedical signals. Most of these algorithms have been focused on the elimination of noise and artifacts existing in these signals, so they can be used for automatic monitoring and/or diagnosis applications. With regard to remote monitoring, the use of portable devices often requires a reduced number of resources and power consumption, being necessary to reach a trade-off between the accuracy of algorithms and their computational complexity. This talk presents a SoC (System-on-Chip) architecture, based on a FPGA (Field-Programmable Gate Array) device, suitable for the implementation of biomedical signal processing. The proposal has been successfully validated by implementing an efficient QRS complex detector. The results show that, using a reduced amount of resources, values of sensitivity and positive predictive value above 99.49% are achieved, which make the proposed approach suitable for telemedicine applications.
Neural network architecture-Theory, Application and Implementation
Wednesday, 14th October 2015, 14h00-15h00, Lannion room 309N + Rennes room Bréhat
CHAU Van Tu – IRISA-CAIRN
Abstract: In this work, we investigate the neural network from low to high level, applications and how to implement it in FPGA for specific usage purpose. The neural network work as a human brain, they need to learn or train the pattern by “seeing”, “reading” or “smelling”, so the learning rules is the most important function in neural network. We will revise some learning rules that are used in common nowadays. With and without pattern will lead us to the supervised and unsupervised learning rule, which make them different inside structure and equation. Neural network can apply for many kind of applications from hardware to software, some results from papers will show us more clearly about them. To use for our purpose, we will implement the neural network in FPGA, the most useful tool in this circumstance. By using VHDL code, many application have been built and let see some basic application can be implemented.
CST: Étude et conception d’un cœur de processeur asynchrone ultra basse consommation pour les réseaux de capteurs
Thursday, 10th September 2015, 10h00-11h30, Lannion room 309N
Florent Berthier– CEA-CAIRN-IRISA