Éric Leclercq

Maître de conférences en informatique - Laboratoire LE2I de l'Université de Bourgogne

Thématiques de recherche

mots-clés : modèles pour les données à grande dimension, Data-intensive HPC, gestion des données scientifiques, sémantique, données distribuées, systèmes d'information.

Mes travaux de recherche portent, d’une manière générale, sur la définition de modèle pour lier données, connaissances et outils d'analyse. Dans ce cadre, je me suis intéressé plus particulièrement aux problématiques suivantes :

  • spécification de modèles génériques incluant une description physique, syntaxique et sémantique des images pour des plateformes de domaines (applications aux bases de données images en archéologie et aux bases d'images en biologie)
  • architecture flexible pour l'intégration de données hétérogènes et à grande variabilité (application au domaine bio-médical)
  • modèle d'annotations sémantiques à base ontologique, opérateurs de manipulation d'annotations
  • définition de modèles multi-paradigmes et de système de stockage polyglote (polyglot storage, ou encore polystore) pour traiter la variabilité de données de grande dimension

Actuellement mes recherchent se concentrent sur la définition de modèles pour faciliter l'analyse des données de type réseaux complexes dans les cas qui m’intéressent, il s'agit de graphes multi-relationnels, multiplexes ou multi-couhes formés par des données issues des réseaux sociaux dont la sémantique est complexe (relations multiples, dépendante du contexte, etc.). Dans ce cadre je développe un approche de type polystore qui permet de stocker des jeux de données dans plusieurs systèmes (NoSQL orienté colonne, ou clé-valeur, bases de données graphe, système de fichiers distribuées formats JSON, Parquet, etc.). Cette approche permet de répartir les données dans les systèmes qui sont les plus appropriés pour leur stockage. Par exemple les données de capteurs ou plus généralement les données environnementales se présentent sous la forme de matrices tandis que les données des réseaux sociaux sont plutôt des multi-graphes. Afin d'unifier ces représentation, je développe un modèle théorique s'appuyant sur le notion mathématique de tenseur afin d'alimenter rapidement les algorithmes en données et de faciliter les transformation de modèles. Plusieurs projets de recherches collaborative et inter-disciplinaire viennent constituer un domaine applicatif riche en questionnement et permettant de valider les propositions.

Du point de vue des analyses de données je me concentre sur le problème de l'interprétabilité des résultats des algorithmes et de leur validation sans vérité de terrain. Il peut s'agir par exemple de caractériser des communautés d'utilisateurs par des hashtags représentatifs ou des thèmes (topics), de caractériser des événements, d'étudier les phénomènes de viralités et la part des robots. Ces recherches plus appliquées sont menées avec des chercheurs en sciences sociales et en science de la communication.

Projets de recherche

  • Projet TEP 2017 : étude de dynamique de la communication politique sur Twitter durant d'élections présidentielle 2017
  • Projet PEPS SEISME du CNRS (2015 et 2016)
  • Projet TEE 2014 : étude de la structure de la communication politique sur Twitter durant la campagne des élection européennes de 2014
  • Projet PEPS de la mission à l'interdisciplinarité du CNRS LogModArcheo (2013 et 2014) : usage des logiques modales pour la modélisation et le raisonnement sur les données archéologiques incertaines
  • ANR Corpus architecturae religiosae europeae IV-Xs. (CARE)
  • Atlas de la Pierre projet financé par la région bourgogne et FEDER