SEMINAIRE LABO- Franck Gabriel

Régulariser le score dans les modèles de diffusion : généraliser en respectant la géométrie des données

Les modèles de diffusion servent aujourd’hui à simuler des données réalistes complexes (images, textes, structures moléculaires, …). Malheureusement, la compréhension de ces modèles reste limitée, et, sur des jeux de données finis, ces modèles peuvent mémoriser les observations plutôt que de générer de nouvelles données plausibles.Nous proposons un modèle volontairement simple pour comprendre les mécanismes sous-jacents : nous remplaçons le score empirique par un score lissé par convolution. Cela tend à induire un double mécanisme de régularisation: (i) une diffusion isotrope qui atténue les caractéristiques individuelles des données, puis (ii) un lissage le long de la géométrie des données, qui permet de conserver la structure globale des données. Ce faisant, nous introduisons un estimateur de densité plus adaptatif que les estimateurs à noyau classiques (KDE) : le LED-KDE (Log-Exponential Double-Kernel Density Estimator), qui respecte le support et la structure des données et qui guide le processus de génération dans les modèles de diffusion.
Dans le régime de temps court et avec une grande taille d’échantillon, nous étudions le comportement asymptotique du score empirique et caractérisons le compromis biais-variance induit par le lissage du score. Cela nous permet d’établir des majorations sur les distances entre la vraie distribution des données et celle générée par les modèles de diffusion avec score empirique ou score lissé par convolution, ce qui quantifie l’effet positif du lissage du score sur la génération de données.


Liste des horaires :

  • Le 14 novembre 2025 de 14h à 15h Site de Gerland

    Salle : 2303 (2ème étage)