En la primera parte de esta serie, les presenté a mi amigo John, creado artificialmente, quien tuvo la amabilidad de compartir con nosotros sus conversaciones con cinco de las personas más cercanas a su vida. Solo utilizamos metadatos, como quién envió mensajes y a qué hora, para visualizar cuándo conoció John a su novia, cuándo tuvo una pelea con uno de sus mejores amigos y a qué miembros de la familia debería escribir mensajes con más frecuencia. Si no has leído la primera parte de la serie, puedes encontrarla. aquí.
Lo que no hemos cubierto todavía, pero profundizaremos ahora, es un análisis de los mensajes reales. Por lo tanto, usaremos el chat entre John y María para identificar los temas que están discutiendo. Y, por supuesto, no revisaremos las publicaciones una por una y las ordenaremos; no, usaremos la biblioteca BERTopic de Python para extraer los temas en torno a los cuales giran las discusiones.
¿Qué es BERTopic?
BERTopic es una técnica de modelado de temas introducida por Maarten Grootendorst que utiliza incrustaciones basadas en transformadores, particularmente incrustaciones BERT, para generar temas coherentes e interpretables a partir de grandes colecciones de documentos. Fue diseñado para superar las limitaciones de los enfoques tradicionales de modelado de temas como LDA (Latent Dirichlet Allocation), que a menudo tienen dificultades para manejar breves…