Dépasser la bière et les couches culottes : étude de l’attrition dans un large corpus de tickets de caisse

Contact

TERMIER Alexandre, Alexandre.Termier@irisa.fr

Mots-clés

fouille de données, big data, Extraction de motifs, attrition

Description

Un phénomène qui intéresse les groupes de la grande distribution est l’attrition chez les clients, c’est-à-dire leur départ à la concurrence. Un client est en attrition si sa fréquentation ou sa dépense diminue sur une période de temps significative. Pour détecter et comprendre de tels phénomènes, les groupes de la grande distribution disposent de TeraOctets de données sur les achats effectués dans leurs magasins, provenant principalement des tickets de caisse des clients porteurs d’une carte de fidélité. Analyser manuellement cette masse de données n’est pas envisageable en raison de sa taille.

Les techniques de fouille de données, comme la recherche d’itemsets fréquents ou les règles d’association [1-4], permettent quant à elles d’extraire automatiquement de l’information “pertinente” dans des masses de données sous forme de motifs.

Dans ce stage mené conjointement entre l’IRISA et un groupe majeur de la grande distribution française, le but est de déterminer des indicateurs de cette attrition à partir de motifs présents dans les tickets de caisse, pour permettre de [1]  proposer une réaction commerciale afin d’éviter de perdre ces clients. D’un point de vue scientifique, le stage portera sur l’amélioration des algorithmes d’extraction de motifs fréquents[2] , afin de déterminer les signatures des clients. Une signature est composée des produits les plus « importants » pour chaque client. Cette notion s’appuie sur la fréquence d’achat mais aussi sur la période.

L’étudiant sera intégré dans l’équipe DREAM de l’IRISA et encadré par des spécialistes en extraction de motifs fréquents. Il travaillera en collaboration avec le partenaire industriel et aura accès à un important corpus de données réelles anonymisées.

Le candidat devra avoir un solide bagage algorithmique et une bonne maîtrise de la programmation en Java, C++ et/ou Python. Une expérience en Map/Reduce ou en Apache Spark sera un plus au vu de l’importante quantité de données à traiter. Un intérêt pour les techniques de visualisation des résultats obtenus (par exemple avec D3.js) sera également apprécié.