Técnicas de análisis de datos de chat con Python | de Robin von Malottki | noviembre 2024

Técnicas de análisis de datos de chat con Python | de Robin von Malottki | noviembre 2024

Parte II: Extracción de temas con BERTopic

Foto por Mikechie Esparagoza
y obtenido de Pexels.com

En la primera parte de esta serie, les presenté a mi amigo John, creado artificialmente, quien tuvo la amabilidad de compartir con nosotros sus conversaciones con cinco de las personas más cercanas a su vida. Solo utilizamos metadatos, como quién envió mensajes y a qué hora, para visualizar cuándo conoció John a su novia, cuándo tuvo una pelea con uno de sus mejores amigos y a qué miembros de la familia debería escribir mensajes con más frecuencia. Si no has leído la primera parte de la serie, puedes encontrarla. aquí.

Lo que no hemos cubierto todavía, pero profundizaremos ahora, es un análisis de los mensajes reales. Por lo tanto, usaremos el chat entre John y María para identificar los temas que están discutiendo. Y, por supuesto, no revisaremos las publicaciones una por una y las ordenaremos; no, usaremos la biblioteca BERTopic de Python para extraer los temas en torno a los cuales giran las discusiones.

¿Qué es BERTopic?

BERTopic es una técnica de modelado de temas introducida por Maarten Grootendorst que utiliza incrustaciones basadas en transformadores, particularmente incrustaciones BERT, para generar temas coherentes e interpretables a partir de grandes colecciones de documentos. Fue diseñado para superar las limitaciones de los enfoques tradicionales de modelado de temas como LDA (Latent Dirichlet Allocation), que a menudo tienen dificultades para manejar breves…