Soy parte de algunas comunidades de ciencia de datos en LinkedIn y otros lugares y una cosa que veo de vez en cuando es gente haciendo preguntas sobre PySpark.
Seamos realistas: la ciencia de datos es un campo demasiado grande para que cualquiera pueda saberlo todo. Entonces, cuando me inscribo en un curso/comunidad sobre estadística, por ejemplo, la gente a veces me pregunta ¿Qué es PySpark?, cómo calcular ciertas estadísticas en PySpark, y muchos otros tipos de preguntas.
En general, aquellos que ya trabajan con Pandas están particularmente interesados en Spark. Y creo que esto sucede por varias razones:
- Ciertamente, Pandas es muy conocido y utilizado por los científicos de datos, pero ciertamente no es el paquete más rápido. A medida que aumenta el tamaño de los datos, la velocidad disminuye proporcionalmente.
- Es natural que aquellos que ya dominan Pandas quieran aprender una nueva opción para administrar datos. Como los datos están más disponibles y son más grandes, conocer Spark es una excelente opción para administrar big data.
- Databricks es muy famoso y PySpark es probablemente el lenguaje más utilizado en la plataforma, junto con SQL.