EGC 2010
Association Extraction et Gestion des Connaissances Faculté des Sciences de Tunis Université Centrale de Tunis
Du 26 au 29 janvier 2010, Hammamet, Tunisie

Tutoriels

Planning

  Mardi, 26 janvier 2010
Matin : de 9h00 à 12h30
Mardi, 26 janvier 2010
Après-midi : de 14h00 à 17h30
Salle
Bar Américain El Menzah
 Principales avancées en classification d'images de télédection
Proposé par Pierre Gançarski, Cédric Wemmert et Germain Forestier
 Prédiction de liens dans les réseaux sociaux
Proposé par Rushed Kanawati et Céline Rouveirol
Salle
Coffe Shop
Data Mining parallèle et distribué
Proposé par Yahya Slimani et Moez Ben Haj Hmida

Les pauses café sont prévues de 10h30 à 11h00 et de 15h30 à 16h00.

Principales avancées en classification d'images de télédection

Pierre Gançarski Cédric Wemmert Germain Forestier
Pierre Gançarski, Cédric Wemmert, et Germain Forestier
LSIIT - Equipe FDBT, Univ. de Strasbourg
Strasbourg, France.

Courriels : gancarski@unistra.fr, wemmert@lsiit.u-strasbg.fr, forestier@unistra.fr

Résumé : Le terme "photo-interprétation" désigne l'interprétation des photographies aériennes et des images spatiales. À la base de tout processus de photo-interprétation, on trouve la lecture des images de la scène (ou paysage) étudiée, prises le plus souvent à la verticale. Un des objectifs principaux de ce processus est l'identification des objets géographiques formant la scène observés mais aussi de leurs relations mutuelles que ce soit d'un point de vue spatial, temporelle ou encore en termes de composition. De fait, cette interprétation vise à répondre à deux types de questions : d'autre part, celle que l'on pourrait qualifier de "spécifique" consistant à s'interroger sur la présence d'un objet spécifique ou à extraire une famille particulière d'objets dans la scène (extraction des routes par exemple) et d'autre part, celle plus "globale" cherchant à analyse la scène dans son ensemble (classification par exemple).

Dans le domaine de l'analyse urbaine, jusqu'à la fin des années 90, l'interprétation des images se faisait directement sur les pixels pour une analyse au niveau des zones urbaines uniquement. L'avènement de très haute résolution spatiale (THR) pour les images de télédétection au début des années 2000, a quelque peu modifié ce processus de photo-interprétation dans le domaine de l'analyse urbaine. En effet ces images THR permettent une analyse en termes d'objets urbains qui grâce à cette résolution élevée deviennent visibles. Or la superficie couverte par un pixel est inférieure à celles de la majorité des objets urbains: une étape de reconstruction de ces objets à partir des pixels les composant est nécessaire.

De fait, un nouveau paradigme d'extraction fondé sur les objets géographiques eux-même a été introduit. Le processus qualifié "d'orienté objet" ou (pour éviter la confusion avec les objet informatiques) "basé régions", introduit par ce paradigme, se compose de trois grandes étapes : 1) Segmentation de l'image 2) Vectorisation des segments obtenus (caractéristiques issues principalement du domaine de la photo-interprétation "manuelle") et 3) classification/labellisation des régions construites à partir des segments et de leur vectorisation.

Parallèlement, l'augmentation du nombre d'objets visibles et donc des classes d'objets potentielles dans un telle image rend concrètement impossible la définition de suffisamment d'exemples pour espérer une classification supervisée de qualité.

Dans cette présentation, nous nous focaliserons donc principalement sur la classification non supervisée par pixels et basée régions.

Par ailleurs, on ne voit que ce que l'on connait. Ainsi, la connaissance de l'objet d'étude (c'est-à-dire de la scène) est importante. Il n'est pas bon que l'interprétation soit faite par quelqu'un ignorant de la thématique (Bernard Lortic, 2002). Ainsi, le processus d'interprétation nécessite la présence d'un expert-thématicien mais est, malheureusement, très gourmand en temps.

Une solution actuellement étudié pour aider la photo-interpréteur dans son processus d'analyse consiste à introduire de la connaissance sur le domaine étudié mais aussi sur les mécanismes d'interprétation eux-mêmes.

En fonction du temps disponible, une présentation rapide des principaux mécanismes permettant l'utilisation de la connaissance dans un processus d'interprétation non supervisé sera faite.

Sommaire :

  1. Rappel sur la classification par pixel
  2. Présentation rapide des méthodes monostratégie (Kmeans, etc.) et multistratégie
  3. Pourquoi l'analyse d'images THR "impose-t-elle" à la fois des approches dite basées régions et des approches non supervisées
  4. Le processus d'interprétation basé régions
  5. Le problèmes des descripteurs utilisés pour le vectorisation
  6. Classification guidée et utilisation de la connaissance du domaine (En fonction du temps disponible)

Prédiction de liens dans les réseaux sociaux

Rushed Kanawati Céline Rouveirol
Rushed Kanawati et Céline Rouveirol
LIPN - UMR CNRS 7030, Univ. Paris 13
Paris, France.

Courriels : rushed.kanawati@lipn.univ-paris13.fr, celine.rouveirol@lipn.univ-paris13.fr

Résumé : Un réseau social est un graphe dont les noeuds sont des individus interconnectés par des liens sociaux : échange de messages, co-signature de publications, etc. Les recherches dans ce domaine s'intéressent principalement à de grands réseaux composés de milliers voire de millions de noeuds. L'analyse de réseaux sociaux a connu un net regain d'intérêt depuis la fin des années 90, lorsque l'on a remarqué que beaucoup de réseaux naturels (par exemple, les réseaux biologiques, de collaborations, etc.) et artificiels (réseaux de distribution de l'électricité, Internet, le web, etc.) ne se comportent pas comme des graphes aléatoires mais partagent un certain nombre de caractéristiques, notamment l'invariance de la structure par changement d'échelle qui se traduit par une distribution des degrés selon une loi de puissance. L'essor du Web, et plus récemment celui du Web 2.0 ont augmenté l'intérêt à étudier et à analyser les réseaux sociaux. L'analyse des réseaux sociaux est un champs d'applications qui s'intéresse à l'étude des propriétés des interactions entre les noeuds d'un réseau social ainsi qu'à l'étude de la structure de ces réseaux et de leur évolution. Trois types de tâches peuvent être identifiées : d'une les tâches orientées noeuds, dont l'objectif est de caractériser le rôle d'un noeud dans un réseau (l'exemple le plus connu est le calcul du PageRank d'une page web) ; d'autre part, les tâches orientées communauté, où une communauté est un sous-graphe “dense” en liens du réseau social, dans le but de décomposer un réseau en communautés ou d'identifier la communauté d'un noeud donné. Enfin, la dernière tâche d'analyse orientées structurea pour objectif de caractériser la structure générale d'un réseau et d'étudier les lois qui gouvernent l'évolution de sa structure. La prédiction de liens, objet de ce tutoriel, est un exemple de ce type de tâche.

Sommaire :

  1. Introduction
  2. Problématique de prédiction de liens
  3. Approches de prédiction de liens
  4. Conclusion

Data Mining parallèle et distribué

Yahya Slimani Moez Ben Haj Hmida
Yahya Slimani
Faculté des Sciences de Tunis, Tunisie
Courriel : yahya.slimani@fst.rnu.tn

Moez Ben Haj Hmida
Institut Supérieur des Sciences Appliquées et de Technologie de Sousse, Tunisie
Courriel : moez.benhajhmida@fst.rnu.com

Résumé : L'évolution des techniques de saisie et de stockage d'informations ont permis d'accumuler des masses considérables de données. Ces données peuvent être structurées, partiellement structurées ou navoir aucune structure et proviennent de différentes sources. Ces grands ensembles de données renferment de la connaissance cachée, dont seule une partie est extraite et exploitée. Cette extraction se fait en utilisant des techniques et des algorithmes qui produisent de la connaissance sous différentes formes : règles associatives, classification, catégorisation, etc. Malheureusement, le coût d'extraction de cette connaissance est d'ordre exponentiel. Cette complexité est due à la conjonction de deux facteurs essentiels : le volume de données à explorer et l'aspect hautement itératif et combinatoire des algorithmes de génération de la connaissance. Pour réduire le coût de cette extraction, un certain nombre de techniques sont utilisées dans les différentes étapes d'un processus d'extraction de connaissances. Parmi ces techniques, l'utilisation du parallélisme et de la distribution, quand ils sont convenablement utilisés, peuvent contribuer à réduire, de manière relativement sensible, la complexité du coût d'extraction.

L'objectif de ce tutoriel est de présenter les architectures ainsi que les techniques de parallélisation et de distribution utilisées dans un processus d'extraction de connaissances à partir de larges ensembles de données. L'accent sera mis sur les méthodes de déploiement d'algorithmes de datamining sur des architectures à large distribution telles que les grilles.

Sommaire :

  1. Rappels sur la fouille de données
  2. Fouille de données et parallélisme
  3. Fouille de données et systèmes distribués
  4. Fouille de données sur les grilles
  5. Présentation du middleware Globus
  6. Introduction aux Services Web
  7. Déploiement de l'outil Weka4WS sur Globus
  8. Démonstration d'exécutions d'algorithmes de fouille de données sur une Grille de calcul

Valid XHTML 1.0 Strict Valid CSS!
  -  Copyright © EGC 2010   -  Webmaster : Riadh Ben Messaoud