Skip to content

Desafíos

La ejecución de un proyecto de Ciencia de Datos aborda todo el proceso de resolución de un problema: desde la recopilación y el procesamiento de datos, hasta el diseño del mejor método para resolver el problema y la implementación de una solución. Los problemas y los conjuntos de datos provienen de entornos realistas similares a los que nos podríamos encontrar en la industria, la academia o el gobierno. Por lo tanto, los proyectos por lo menos incluirán:

  • Formulación de una pregunta para ser respondida por los datos.
  • Limpieza y procesamiento de datos.
  • Elegir y aplicar un modelo y/o método analítico adecuado al problema.
  • Y comunicar los resultados a una audiencia no técnica.

Entre los desafíos que algo así plantea, encontramos que:

  • Se debe atender el ciclo completo del proyecto: no sólo es mostrar el bello resultado final.
  • En la mayoría de los casos trabajaremos en equipos, nunca solos.
  • Será necesario responder con facilidad y rapidez por cada parte del proceso, ya que un grupo de investigadores/compañeros de equipo/stakeholders estarán presionando.
  • Todo esto se desarrolla programando.

¡La calidad del código es muy importante! En Ciencia de Datos todo se reduce a prolijidad y reproducibilidad. La forma más fácil de alcanzar eso es mediante una estructura para el código o un cierto diseño del proyecto. Debemos empezar con una estructura limpia y mantenerla viva en todo el ciclo del proyecto.

Por qué es necesario esta metodología

El mundo te lo agradecerá

  • Será mucho más fácil colaborar en equipo.
  • Se podrá aprender más al analizar de forma más fácil el proceso que se sigue al construir proyectos.
  • Todos podremos sentirnos más confiados sobre la veracidad de las conclusiones a las que lleguen los proyectos.

Tú te lo agradecerás

  • ¿Había que usar plot_figures.py.old o era new_figures01.py o new_figures01_updated.py?
  • ¿Había que hacer el merge con la columna X antes de empezar o eso quedaba dentro de alguno de los notebooks
  • ¿Cuál notebook iba primero, era “procesar datos” o “limpiar datos”?
  • ¿De dónde fue que bajé los shapefiles para dibujar los mapas?