Sujet de stage master 2 recherche
Par darksword le lundi, janvier 16 2006, 19:31 - Stage master recherche - Lien permanent
Titre du sujet : DataMining distribué
Responsable : Bernard Toursel
Encadrement : Bernard Toursel, Richard Olejnik, Valérie Fiolet
Description du sujet :
1. Contexte, problématique et objectifs
Le datamining distribué (DDM : Distributed DataMining) se situe à la conjonction de deux évolutions majeures : d’une part, l’explosion de masses de données importantes et souvent réparties dont il faut savoir extraire une connaissance utile, d’autre part le développement sans précédent des réseaux d’ordinateurs permettant le calcul distribué sur des réseaux, locaux comme à grande échelle (GRID, voir GRID5000). Le « verrou technologique » se situe aussi bien en termes d’utilisation de nouvelles heuristiques diminuant la complexité des traitements et plus aptes à une exécution parallèle, qu’en termes de distribution des traitements, des communications et des mémoires, dans un contexte non centralisé et hétérogène (grille).
Dans ce contexte, la recherche distribuée de règles d’association exige
- d’une part, une distribution « intelligente » de la base de données : dans le projet en cours, cette fragmentation est basée sur une approche parallèle de type clustering, pour laquelle nous avons défini une nouvelle technique dite de « clustering incrémental »,
- d’autre part, des heuristiques réparties sur l’ensemble des fragments.
2. le travail à effectuer
Le travail à effectuer s’inscrit dans le cadre du projet de recherche en cours. Il concerne les deux aspects ci-dessus :
- implanter et améliorer la nouvelle méthode de clustering incrémental et l’évaluer et la paramétrer sur une base de données médicales,
- étudier et implanter une heuristique distribuée qui assure une bonne découverte des règles d’associations avec un minimum de communications, en testant en particulier l’influence de la qualité de la distribution issue de la phase de clustering sur l’efficacité de la méthode.
Commentaires