Maitre des Conferences HDR

nicoleta.rogovschi@u-paris.fr

Nicoleta Rogovschi

Je travaille dans le domaine de l’apprentissage numérique (statistique et connexionniste) et de la fouille de données. Plus précisément, je m’intéresse à l’apprentissage non supervisé (Clustering) à partir de données de différents types et différentes structures. Mon attention s’est portée sur la révision des méthodes de classification non supervisée à base de prototypes (ex. cartes auto-organisatrices) dans le formalisme des modèles de mélanges. L’idée de base de mes travaux de recherche repose sur le principe de la conservation de la structure initiale
des données en utilisant un formalisme probabiliste.

 

Les principaux thèmes de recherche auxquels je m’intéresse s’articulent autour des points
suivants :
• Classification non supervisée (Clustering)
• Modèles de mélanges (Mixture Models)
• Co-clustering
• Cartes SOM (Self-Organizing Maps)
• Chaînes de Markov Cachées (Hidden Markov Models)
• Systèmes de filtrage collaboratif
• Modèles probabilistes pour des données sequentielles
Mes travaux de recherche actuels portent sur les trois axes suivants :
1. Visualisation pour le clustering et co-clustering
2. Systèmes de filtrage collaboratif
3. Anonymisation des données utilisant des techniques d’apprentissage non-supervisé

 

Collaborations scientifiques
1. Professeur invité à l’Université Technique de Moldavie, septembre 2015 (Projet AUF)
2. Collaborations avec Tokyo Institute of Technology, Japan et le Department of Electrical
and Electronic Engineering at Graduate Scool of Engineering, Kobe Univerity,
Kobe, Japan (co-organisations de plusieurs manifestations)
3. Collaborations dans le cadre du PRES Sorbonne Paris Cité avec LIPADE, l’Université
Paris 13;
4. Collaborations dans le cadre du PRES Sorbonne Paris Cité avec LIPADE, l’Université
Paris Descartes et le SYLED, Université Sorbonne Nouvelle - Paris 3 (Projet de
recherche déposé au sein de l’IDEX) ;
5. Collaboration avec Information Society Development Institute (Academy of Sciences
of Moldova) sur des techniques d’apprentissage non-supervisé à base de modèles de
mélanges appliquées aux données hétérogènes.

 

Invitation dans des universités étrangères
1. Séjour scientifique à Ellensburg State University, WA, USA, mai-juin 2017
2. Séjour scientifique à l’Université de Kobe (Japon), mars 2016,
3. Invitations pour un séjour scientifique à Vyatka State University, Kirov (Russie), mars
2013;
4. Séjour scientifique à l’Université Technique de Moldavie (septembre 2011), laboratoire
LILU, Moldavie: travaux sur la reconnaissance automatique de la parole;

 

Comités de Rédaction - Rapportrice de Revues et Conférences Nationales et Internationales
1. Journal Kowledge and Information Systems, à partir de 2015
2. Journal of Neural Networks, à partir de 2012
3. Neurocomputing Journal, à partir de 2010

4. Conférences IJCNN , WCCI, ICONIP à partir de 2010, AICIT, SFCà partir de 2011, Cap, EGC à partir de 2010.

 

Organisation de manifestations scientifiques
1. Organisation du workshop ALML2020 (InternationalWorkshop on Advances in Learning
from/with Multiple Learners), IJCNN’20, Glasgow – Irlande 2020.
2. École Thématique sur le "Deep Learning & Data Science". Fès 2019, Tanger 2018,
Marrakech 2018, Fès 2017.
3. Organisation du workshop Machine Learning : methods and applications, ECCO’19,
Chisinau – Moldova, October 2019
4. Organisation du 5eme edition du workshop ALML2019 (International Workshop on
Advances in Learning from/with Multiple Learners), IJCNN’19, Budapesta – Hungary,
July 2019
5. Co-organisation de l’ecole d’été internationale Machine Learning and Applications,
Brasov – Romania, July 2019
6. Organisation du workshop ALML2018 (InternationalWorkshop on Advances in Learning
from/with Multiple Learners), WCCI - World Congres on Computational Intelligence
2018, Rio de Janeiro – Bresil, July 2018
7. Organisation du workshop ALML2017 (InternationalWorkshop on Advances in Learning
from/with Multiple Learners), IJCNN’17, Alaska – USA, Mai 2017
8. Membre du Comité d’Organisation de la Conférence AAFD-SFC, 2016 – Marrakesh
(Maroc)
9. Organisation de la Session Spéciale Topological and Graph Based Clustering Methods,
ICONIP 2016
10. Organisation de la Journée thematique“ Systèmes de recommendation, Paris,
https://sites.google.com/site/systemesderecommandation/ (2015)
11. Organisation du workshop ALML2014 et ALML2016 (International Workshop on Advances
in Learning from/with Multiple Learners)
12. Membre du comité d’organisation de la Session Spéciale Special Session on Active
Learning and Experimental Design (ALED), IJCNN 2013.

13. Organisation de la Session Spéciale Incremental Machine Learning: Methods and
Applications (IML’2013), International Joint Conference on Neural Networks, Dallas,
USA, 2013;
14. Organisation de la Session Spéciale Co-Clustering of Large and High Dimensional
Data, International Conference on Neural Information Processing, Doha, Qatar;
15. Organisation de la Session SpécialeWCCI 2012 Special Session on Nonnegative Matrix
factorization paradigm for unsupervised learning, World Congress on Computational
Intelligence 2012, Australia
16. Co-organisation de la Session Spéciale Combining Multiple Learners à ICONIP 2011
(2011 International Conference on Neural Information Processing ), Shanghai, China:
http://iconip2011.sjtu.edu.cn/S8.html
17. Organisation de la session spéciale Automated Supervised and Unsupervised Learning
à IJCNN 2011 (International Joint Conference on Neural Networks), San José, USA:
http://www.ijcnn2011.org/special_section.php
18. Organisation de la session spéciale pour la conférence ICNNAI (International Conference
on Neural Networks and Artificial Intelligence), 2010: Incremental Topological
Learning Models and Dimensional Reduction (https://sites.google.com/site/itlmdm/).
19. Membre du comité d’organisation de l’école d’hiver sur le thème Apprentissage Statistique
et Data Mining (http://sites.google.com/site/ecoleegc/), Hammamet, Tunisie
2010;

 

Participation à des projets de recherche
En parallèle à mes recherches fondamentales sur des problématiques d’apprentissage
non-supervisé, j’ai participé à plusieurs projets collaboratifs, le plus souvent applicatifs.
Ces projets m’ont amené à collaborer avec des scientifiques de différentes nationalités et de
différents domaines, ainsi qu’avec de nombreuses entreprises.


ANR Pro-TEXT (2019-2023)
Pro-TEXT (Processes of Textualization: Linguistic, Psycholinguistic, and Machine
Learning Modeling) is an innovative interdisciplinary project putting under scrutiny
a new research object, the dynamics of the textualisation process. The aim is to
elucidate the way a complex and globally constrained unit, the text, is built out of
simple and locally constrained linguistic units. For this, we will conduct pioneering
research on the recurrent features of bursts of writing in French (a burst is a linguistic
sequence produced between two pauses, e.g.: [pause] une cousine qui [pause] peut venir
partager du temps avec elle pendant [pause] le [pause] w [pause] eek [pause] - [pause]
end. [pause]). We will combine multi-parametric linguistic description, behavioural
data (pauses, chronometry), and machine learning algorithms. This approach will
lead to a comprehensive linguistic analysis by providing insights into the relation
between incremental regularities of the textualisation process and the cognitive and
contextual constraints of language performance. Furthermore, the Pro-TEXT project
will develop methods and tools to model these regularities and provide evidence about
patterns of text processing.


Projet AUF : Modèles intelligents pour améliorer le processus d’apprentissage
(2019-2021)

Ce projet de recherche vise à proposer une approche innovante permettant une analyse
de données textuelles et vidéos émotionnelles pour l’évaluation des cours en ligne
(MOOC) en rassemblant une équipe multidisciplinaire constituée essentiellement de
jeunes chercheurs. Il s’agira d’identifier et d’analyser automatiquement l’état cognitif
et émotionnel des étudiants qui suivent un MOOC par l’intermédiaire d’un espace
d’expression textuelle associé au MOOC. L’originalité du projet consiste à combiner des connaissances issues de la psychologie cognitive à la puissance des méthodes
d’apprentissage automatiques afin de prendre en compte les phénomènes contextuels
dans l’expression écrite libre dans le but de détecter les effets directs du cours en ligne
sur les étudiants.


Projet industriel avec l’entreprise Synaltic (2019-2022) - co-responsable du Projet
Titre : L’Apprentissage Artificiel au service de la qualité de données
Ce projet de recherche (dans le cadre de la thèse CIFRE avec l’entreprise Synaltic)
propose une approche novatrice, s’appuyant sur l’intelligence artificielle, une découverte
des contraintes sur les données sera développée avec comme objectif de pouvoir
corriger les données (des algorithmes de correction efficaces existent déjà mais nécessitent
des informations qui pour l’instant ne peuvent être fournies que de manière
humaine).


PEPS-CNRS MultiText (2017-2018)
La fouille de textes suscite une forte attention ces dernières années en raison des
grands volumes de données disponibles, les applications de tchats ou encore les forums
web. L’analyse de ces données présente de nombreuses difficultés liées à la fois à leur
important volume, mais surtout à leur caractère hétérogène et distribué. Ce projet
s’inscrit dans la dynamique actuelle d’analyse de données issues de différent sources
et a pour objectif de combiner des techniques d’analyse de données dynamiques et
multi-vues avec des techniques d’analyse d’émotions et d’expressions dans les corpus
de textes. L’objectif de ce projet est de mettre au point des méthodes d’apprentissage
non-supervisé efficace pour l’analyse de ces données, de façon à détecter de façon
dynamique des tendances ou des changements comportementaux.


ANR COCLICO (2012-2016)
Le projet COLCICO (COllaboration, CLassification, Incrémentalité et COnnaissances)
est un projet de recherche visant à étudier et proposer une méthode générique innovante
permettant une analyse multi-échelle de grands volumes de données spatiotemporelles
fournies en continue de qualité très variable, mettant en oeuvre une approche
multi stratégie incrémentale dans laquelle la collaboration entre les différentes
méthodes de fouille de données sera guidée par des connaissances à la fois du domaine
thématique (Géosciences, Géographie) formalisées en ontologies et du domaine
de l’analyse (connaissances sur les méthodes), et garantissant un objectif de qualité
finale prenant en compte à la fois la qualité des données et celles des connaissances.

 

PEPS-CNRS AIDEM (2012-2014)
AIDEM est un projet de recherche visant à proposer une méthode innovante permettant
une analyse de grands volumes de données textuelles émotionnelles en temps réel
issus des forums de discussions. Ce projet a aussi comme but la détection et la caractérisation de l’évolution temporelle des émotions (la caractérisation de bi-clusters
évolutifs). L’originalité du projet consiste à proposer des méthodes incrémentales susceptibles
de prendre en compte, d’une part, les dynamiques du discours et, d’autre
part, les phénomènes contextuels. Il s’agira par exemple d’identifier des constellations
émotionnelles et d’étudier leur évolution au fil d’un forum de discussions.


JCJC INS2I 2015 A3FD (2015)
A3FD est un projet de recherche visant à proposer des méthodes innovantes pour
l’analyse autonome de grands volumes de données temporelles en rassemblant une
équipe constituée de deux jeunes chercheurs. Ces méthodes devront permettre la
détection et la caractérisation de l’évolution temporelle des clusters en choisissant de
manière autonome les valeurs optimales des paramètres des algorithmes. Ce type
de méthodes n’existe pas actuellement malgré un besoin important. Nous validerons
les méthodes proposées sur des données applicatives réelles pour l’identification de
groupes d’opinions et d’expressions émotionnelles à partir de données de types tweets
et l’étude de leur évolution dans le temps.


ANR ClasSel (Classification croisée et sélection de modèle (2009-2012)
ClasSel est un projet ANR de recherche académique qui vise à développer des méthodes
de transformation de données en connaissances. Les données en question se
présentant sous la forme d’une matrice individus-variables, nous cherchons à produire
de la connaissance sous la forme de groupes homogènes de données associant conjointement
les individus et les variables. C’est le problème de classification croisée.
Nous envisageons d’attaquer ce problème formellement à travers une modélisation
probabiliste. Notre projet vise à adapter cette modélisation aux problèmes spécifiques
de la classification croisée pour les données de grande taille, des algorithmes
d’estimation adapté du type EM, une attention particulière étant mise sur le problème,
fondamental, du choix du nombre de groupes. C’est la question de la sélection
de modèle. À cette fin, nous comptons nous placer dans un cadre statistique nouveau
et particulièrement bien adapté. Nous nous proposons aussi de mettre en oeuvre nos
solutions sur des exemples concrets, comme le challenge Netflix sur les systèmes de
recommandation, et de traiter des applications en analyse automatique de texte et en
marketing.


ANR Infom@gic (2007-2010)
Infom@gic, un projet sur une période de trois ans, a eu le but de mettre en place un laboratoire
industriel de sélection, de tests, d’intégration et de validation d’applications
opérationnelles des meilleures technologies franciliennes dans le domaine de l’ingénierie
des connaissances. Ce laboratoire s’appuie sur une plate-forme commune qui couvre
les grands domaines de l’analyse d’information quelles que soient les sources (données
structurées, texte, images et sons) :

– la recherche et l’indexation;
– l’extraction de connaissances;
– la fusion d’informations multimédias.
Elle inclue des applications pour les secteurs de l’e-Education et de la gestion des
patrimoines culturels numériques. Notre rôle: Nos recherches dans le cadre du ce
projet se situent dans l’axe ‘Fusion d’information multimodales’.