- Title: “Study of properties and modeling of complex social graphs”
- When: June 25, 2021 — 14:00
- Where: online on YouTube
- Committee:
- Augustin Chaintreau, Assistant Professor, Columbia University, New York, USA
- Christophe Crespelle (referee), Associate Professor, UCBL, Lyon, France
- Frédéric Giroire (supervisor), Senior Researcher, CNRS, Sophia Antipolis, France
- Jean-Loup Guillaume (referee), Professeur, L3i, La Rochelle, France
- Clémence Magnien, Senior Researcher, CNRS, LIP6, Paris, France
- Giovanni Neglia, Researcher, Inria, Sophia Antipolis, France
- Pawel Pralat, Professor, Ryerson University, Canada
-
Abstract: The rapid emergence of social networks, their major impact on today’s society, and the recent access to large amounts of data about them has led to a strong interest in the study of complex networks in last decades. Many random graph models have been proposed to reproduce these networks and their properties – small diameter, power-law degree distribution, presence of communities, … However, due to the complexity of their theoretical study, the proposed models are often designed for undirected graphs and focus on the emergence of one or two properties at a time. This thesis aims at developing models of random graphs that are general enough to reproduce many complex properties observed in real-world networks. In particular, we present models for constructing graphs with arbitrary degree distributions, directed graphs with a high clustering coefficient, and hypergraphs with power-law degree distributions and a strong presence of communities. We study analytically and experimentally the properties of the presented models. We develop a tool using Markov chains to compute the degree distribution of preferential attachment models.
In order to help in the construction of these models, we study in this thesis two large complex networks: a directed network with all followings on Twitter, with 505 million accounts and 23 billion followings; and a hypergraph of scientific co-publications extracted from the Scopus database, containing 2.2 million authors and 3.9 million publications. Atypical properties emerge from the study of these two graphs, coming in particular from their directed and hypergraph character, that no model of the literature could reproduce until now. - Titre: “Etude des propriétés et modélisation de graphes sociaux complexes”
-
Résumé: L’émergence rapide des réseaux sociaux lors des deux dernières décennies, leur impact majeur sur la société actuelle, ainsi que l’accès récent à de grandes quantités de données les concernant, a amené un fort attrait pour l’étude des réseaux complexes.
De nombreux modèles de graphes aléatoires ont été proposés afin de reproduire ces réseaux et leurs propriétés – faible diamètre, distribution des degrés en loi de puissance, présence de communautés, …
Cependant, du fait de la complexité de l’étude théorique de leurs propriétés, les modèles proposés sont souvent conçus pour des graphes non orientés et se concentrent sur l’émergence d’une ou deux propriétés à la fois.Cette thèse a pour but de développer des modèles de graphes aléatoires suffisamment généraux pour reproduire de nombreuses propriétés complexes observées dans les réseaux du monde réel. En particulier, nous présentons des modèles permettant de construire des graphes avec des distributions de degrés quelconques, des graphes dirigés avec un haut coefficient de clustering, et des hypergraphes avec distribution de degrés en loi de puissance et une forte présence de communautés. Nous étudions analytiquement et expérimentalement les propriétés des modèles présentés. Nous développons enfin un outil utilisant les chaînes de Markov pour calculer la distribution des degrés de modèles d’attachement préférentiel.
Afin de s’aider dans la construction de ces modèles, nous étudions dans cette thèse deux réseaux complexes de grande taille : un graphe dirigé de l’ensemble des liens d’abonnements sur le réseau social Twitter, avec 505 millions de comptes et 23 milliards d’abonnements ; et un hypergraphe de co-publications scientifiques extraites de la base de données Scopus, contenant 2.2 millions d’auteurs distincts et 3.9 millions de publications.
Des propriétés atypiques émergent de l’étude de ces deux graphes, provenant en particulier de leur caractère dirigé et d’hypergraphe, et qu’aucun modèle de la littérature ne permettait jusqu’alors de reproduire.