Imbalanced Data : Comment le déséquilibre de données peut impacter les performances des modèles ?
Les données jouent un rôle essentiel dans l’apprentissage automatique, la modélisation statistique et, plus généralement, l’intelligence artificielle. Elles fournissent en effet la matière première nécessaire à la construction des modèles, qu’il s’agisse de méthodes d’apprentissage supervisé ou non supervisé, ou de techniques statistiques plus traditionnelles ou même de réseaux neuronaux profonds. Plus les données sont riches, variées et représentatives de la réalité, plus les modèles peuvent être précis, généralisables et utiles dans divers contextes. Par conséquent, la qualité des résultats est intimement liée la qualité des données utilisées.
L’apprentissage à partir de valeurs rares, extrêmes ou non, et plus généralement des données déséquilibrées reste encore un défi majeur et assez inexploré. De plus, les valeurs rares représentent souvent un événement important que les praticiens cherchent à comprendre ou prédire.
Comment identifier ce phénomène ? Quels impacts cela peut-il avoir sur la modélisation ? Quelles solutions permettent d’aborder cette problématique ? Voici les questions auxquelles essaiera de répondre cette présentation sur le sujet.