SLa técnica de sobremuestreo de minorías sintéticas (SMOTE) se utiliza comúnmente para manejar los desequilibrios de clases en conjuntos de datos. Supongamos que hay dos clases y una clase tiene muchas más muestras (clase mayoritaria) que la otra (clase minoritaria). En este caso, SMOTE generará más muestras sintéticas en la clase minoritaria para que esté a la par con la clase mayoritaria.
En el mundo real, no tendremos conjuntos de datos equilibrados para problemas de clasificación. Por ejemplo, considere un clasificador que predice si un paciente tiene anemia de células falciformes. Si un paciente tiene niveles anormales de hemoglobina (6 a 11 g/dL), esto es un fuerte predictor de anemia falciforme. Si un paciente tiene niveles de hemoglobina normales (12 mg/dL), este predictor por sí solo no indica si el paciente tiene anemia de células falciformes.
En los Estados Unidos, aproximadamente 100.000 pacientes son diagnosticados con anemia de células falciformes. Actualmente hay 334,9 millones de ciudadanos estadounidenses. Si tenemos un conjunto de datos sobre cada ciudadano estadounidense y etiquetamos o no si el paciente tiene anemia falciforme, tenemos el 0,02% de las personas con la enfermedad. Tenemos un desequilibrio de clases importante. Nuestro modelo no puede detectar características significativas para predecir esta anomalía.