- Title: “Pruning random structures”
- When: September 13, 2023 — 14:00
- Where: Inria Sophia Antipolis, Euler violet
- Committee:
- Emanuele NATALE (Thesis director), Chargé de Recherche, CNRS, COATI, France.
- Vincent GRIPON (Reviewer), IMT-Atlantique, France.
- Marc LELARGE (Reviewer), Directeur de recherche, Inria, Paris, France.
- Konstantin AVRACHENKOV, Directeur de recherche, Inria, Sophia Antipolis, France.
- Pierluigi CRESCENZI, Professeur, Gran Sasso Science Institute, L’Aquila, Italy.
- Frédéric GIROIRE, Directeur de recherche, CNRS. COATI, Sophia Antipolis, France.
- Laurent VIENNOT (Invited), Directeur de recherche, Inria, Paris, France.
-
Abstract: The Strong Lottery Ticket Hypothesis (SLTH) states that neural networks contain, at random initialisation, sub-networks that perform well without any training. The random network needs, however, to be over-parameterized: to have more parameters than it would otherwise need.
The SLTH was first proved for fully-connected networks and assumed polynomial over-parameterization. Soon after, this was improved to only require a logarithmic overhead, which is essentially optimal. This strong result leveraged a theorem on the Subset Sum Problem (SSP). It considers a randomised version of the SSP in which one seeks to approximate a target value by summing subsets of a given random sample. The theorem asserts that ensuring the existence of a solution with high probability only requires a logarithmic sample size relative to the precision of the approximations. We present a simpler, more direct proof for this result.
Then, leveraging the theorem on the SSP, we extend the SLTH to Convolutional Neural Networks (CNNs): we show that random CNNs contain sparse sub-CNNs that do not require training to achieve good performance. We also obtained the result assuming a logarithmic over-parameterization.
Even though the overhead imposed by the SLTH could be offset by the sparsity of the sub-networks obtained, exploiting sparsity in practice is very difficult if it is not structured. Extending the results on the SLTH to produce structured sub-networks would require a multidimensional version of the theorem on SSP. We prove such a version and use it to show that the SLTH still holds for CNNs if we require the sub-networks to be structured.
Finally, we propose an application of the ideas in this thesis to the design of circuits: We harness the inherent randomness in the specs of integrated electronic components to obtain highly accurate programmable components from low-precision static ones.
- Titre: “Élagage de structures aléatoires”
-
Résumé: La Strong Lottery Ticket Hypothesis (SLTH) stipule que les réseaux de neurones contiennent, lors de l’initialisation aléatoire, des sous-réseaux qui fonctionnent bien sans aucun entraînement. Le réseau aléatoire doit cependant être sur-paramétré : avoir plus de paramètres qu’il n’en aurait besoin.
La SLTH a d’abord été prouvée pour les réseaux entièrement connectés et suppose une sur-paramétrisation polynomiale. Puis, cela a été amélioré pour ne nécessiter qu’un surplus logarithmique, ce qui est essentiellement optimal. Ce fort résultat a tiré parti d’un beau théorème sur le Subset Sum Problem (SSP). Il considère une version aléatoire du SSP dans laquelle on cherche à approximer une valeur cible en sommant des sous-ensembles d’un échantillon aléatoire donné. Le théorème affirme que garantir l’existence d’une solution avec une haute probabilité ne nécessite qu’une taille d’échantillon logarithmique par rapport à la précision des approximations. Nous présentons une preuve plus simple et plus directe pour ce résultat.
Ensuite, en tirant parti du théorème sur le SSP, nous étendons le SLTH aux Convolutional Neural Networks (CNNs) : nous montrons que les CNN aléatoires contiennent des sous-CNN clairsemés qui n’ont pas besoin d’entraînement pour obtenir de bonnes performances. Nous avons également obtenu le résultat en supposant une sur-paramétrisation logarithmique.
Bien que le surplus imposé par le SLTH puisse être compensé par la rareté des sous-réseaux obtenus, exploiter la rareté en pratique est très difficile si elle n’est pas structurée. Étendre les résultats sur le SLTH pour produire des sous-réseaux structurés nécessiterait une version multidimensionnelle du théorème sur le SSP. Nous prouvons la véracité d’une telle version et nous l’utilisons pour montrer que le SLTH est toujours valable pour les CNN si nous exigeons que les sous-réseaux soient structurés.
Enfin, nous proposons une application des idées de cette thèse à la conception de circuits : nous exploitons l’aléatoire inhérent aux spécifications des composants électroniques intégrés pour obtenir des composants programmables hautement précis à partir de composants statiques de faible précision.