Cambiar de Pandas a PySpark | de Gustavo Santos | septiembre de 2024

Cambiar de Pandas a PySpark | de Gustavo Santos | septiembre de 2024

Aprenda algunos comandos básicos para comenzar la transición de Pandas a PySpark

Foto de Karsten Wurth seguro desempaquetar

Soy parte de algunas comunidades de ciencia de datos en LinkedIn y otros lugares y una cosa que veo de vez en cuando es gente haciendo preguntas sobre PySpark.

Seamos realistas: la ciencia de datos es un campo demasiado grande para que cualquiera pueda saberlo todo. Entonces, cuando me inscribo en un curso/comunidad sobre estadística, por ejemplo, la gente a veces me pregunta ¿Qué es PySpark?, cómo calcular ciertas estadísticas en PySpark, y muchos otros tipos de preguntas.

En general, aquellos que ya trabajan con Pandas están particularmente interesados ​​en Spark. Y creo que esto sucede por varias razones:

  1. Ciertamente, Pandas es muy conocido y utilizado por los científicos de datos, pero ciertamente no es el paquete más rápido. A medida que aumenta el tamaño de los datos, la velocidad disminuye proporcionalmente.
  2. Es natural que aquellos que ya dominan Pandas quieran aprender una nueva opción para administrar datos. Como los datos están más disponibles y son más grandes, conocer Spark es una excelente opción para administrar big data.
  3. Databricks es muy famoso y PySpark es probablemente el lenguaje más utilizado en la plataforma, junto con SQL.