Cédric du Mouza: AS-Index: Une structure efficace de recherche de texte

10.30, room 445, PCRI

Résumé
AS-Index est une nouvelle structure pour la recherche exacte de chaîne de caractères dans des bases de données textuelles résidant sur le disque. Il repose sur le hachage contrairement à d’autres solutions basées soit sur des arbres ou des treillis. Il indexe chaque n-gram de la base dans sa version initiale, alors qu’une variante autorise une indexation non-dense et un gain d’espace conséquent. La fonction de hachage utilise les signatures algébriques des n-grams. L’utilisation du hachage permet de garantir des temps constants de recherche pour des patterns recherchés de tailles quelconque, contrairement aux structures connues dont le coût est au mieux logarithmique. Le coût de stockage de l’AS-index est de 500-600% la taille des données, similaire aux solutions connues. Nos expériences et nos comparaisons avec des structures connues confirment le bon comportement de notre structure.

Permanent link to this article: https://team.inria.fr/oak/2013/05/02/cedric-du-mouza-as-index-une-structure-efficace-de-recherche-de-texte/