Objectif :
Proposer des réponses scientifiques à des problématiques métier correspondant aux marchés ciblés par Saagie.
Concevoir, mettre au point et valider des modèles d’apprentissage profond faiblement supervisé capables de répondre à des cas d’usage de clients de Saagie en s’appuyant sur des jeux de données réelles ou représentatives.
Approche :
L’angle d’attaque choisi pour aborder la problématique de l’apprentissage faiblement supervisé repose sur l’exploitation de l’apprentissage multitâche car son formalisme offre un cadre général élégant pour adjoindre au critère classique supervisé des tâches annexes potentiellement non supervisées (App. auto supervisé voir §2.2 et nos travaux précédents[1]). Étude de l’aspect multimodal des données par une combinaison de fonctions de pertes dédiées à chaque catégorie de données d’entrée.
Analyse de data sets complexes, hétérogènes et multi-domaines avec des recouvrements et des complémentarités entre domaines. Par exemple: pour un individu, on peut disposer ou pas de données dans différents domaines (images et/ou texte et/ou données tabulaires) et on propose d’utiliser des fonctions de transfert pour reconstruire, pour un individu, les données manquantes dans un domaine.
Planification :
T3.1 : Travaux préliminaires et préparation des données
Début : 01/07/2021. Fin : 30/06/2022
Description : Étude, implémentation et apprentissage de modèles dynamiques pour appréhender les signaux : modèles récurrents ou réseaux totalement convolutifs (cf. travaux récents sur structures purement convolutives.
T3.2 : Étude de l’aspect séquentiel des données
Début : 01/07/2021. Fin : 30/06/2022
Description : Étude, implémentation et apprentissage de modèles dynamiques pour appréhender les signaux : modèles récurrents ou réseaux totalement convolutifs (cf. travaux récents sur structures purement convolutives pouvant remplacer avantageusement les récurrences non parallélisables).
T3.3 : Étude de l’aspect multimodal des données
Début : 01/01/2022. Fin : 31/12/2023
Description : Étude, implémentation et apprentissage de modèles de fusion de données permettant de combiner dans un modèle statistique des informations de natures variées (images, textes, données discrètes, etc.). Investigation des modèles profonds convolutionnels qui semblent désormais capables d’effectuer efficacement cette fusion d’information[1] [2]. Des comparatifs avec des méthodes d’ensemble telles que les random forests pourront également être considérés.
T3.4 : Étude de l’aspect incomplet, incertain et imparfait des données
Début : 01/07/2021 Fin : 31/12/2024
Description : Étude et prototypage des différentes stratégies d’apprentissage profond faiblement supervisé évoquées au §2 dans un cadre général multitâche. Application de méthodes de régularisation et d’architectures optimisées en vue d’améliorer la robustesse.
T3.5 : Apprentissage des modèles complets et validation sur données réelles
Début : 01/01/2023. Fin : 30/06/2025
Description : Conception et apprentissage d’un modèle global permettant de traiter des données multimodales et séquentielles, dans un contexte d’apprentissage profond faiblement supervisé. Préapprentissages probables sur des données annexes sur certaines modalités, image notamment. Combinaison des travaux de T3 + utilisation de l’ensemble des données CHB pour la réalisation de démonstrateurs de faisabilité.
[1] Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2019). Multimodal deep learning.
[2] Lin Ma, Zhengdong Lu, Lifeng Shang, Hang Li; in ICCV, 2015, pp. 2623-2631