Titre du sujet : DataMining distribué

Responsable : Bernard Toursel

Encadrement : Bernard Toursel, Richard Olejnik, Valérie Fiolet

Description du sujet :

1. Contexte, problématique et objectifs

Le datamining distribué (DDM : Distributed DataMining) se situe à la conjonction de deux évolutions majeures : d’une part, l’explosion de masses de données importantes et souvent réparties dont il faut savoir extraire une connaissance utile, d’autre part le développement sans précédent des réseaux d’ordinateurs permettant le calcul distribué sur des réseaux, locaux comme à grande échelle (GRID, voir GRID5000). Le « verrou technologique » se situe aussi bien en termes d’utilisation de nouvelles heuristiques diminuant la complexité des traitements et plus aptes à une exécution parallèle, qu’en termes de distribution des traitements, des communications et des mémoires, dans un contexte non centralisé et hétérogène (grille).

Dans ce contexte, la recherche distribuée de règles d’association exige

  • d’une part, une distribution « intelligente » de la base de données : dans le projet en cours, cette fragmentation est basée sur une approche parallèle de type clustering, pour laquelle nous avons défini une nouvelle technique dite de « clustering incrémental »,
  • d’autre part, des heuristiques réparties sur l’ensemble des fragments.

2. le travail à effectuer

Le travail à effectuer s’inscrit dans le cadre du projet de recherche en cours. Il concerne les deux aspects ci-dessus :

  • implanter et améliorer la nouvelle méthode de clustering incrémental et l’évaluer et la paramétrer sur une base de données médicales,
  • étudier et implanter une heuristique distribuée qui assure une bonne découverte des règles d’associations avec un minimum de communications, en testant en particulier l’influence de la qualité de la distribution issue de la phase de clustering sur l’efficacité de la méthode.