Regla del pulgar: programación de análisis

Se tarda en leer ~1 minuto

En su libro Executive Data Science, Brian Caffo, Roger D. Peng y Jeffrey Leek dan la siguiente “regla del pulgar” sobre el grado de sistematización que es necesario darle a un conjunto de procedimientos o análisis en el contexto de un equipo de trabajo de ciencia de datos (data science):

  • Si vas a realizar algo una vez, escribe algo de código y documéntalo bien. Lo importante es que estés seguro de entender lo que hace el código, para lo cual hace falta escribir buen código y documentarlo. Para estar seguro de que podrás reproducirlo si alguna vez te toca volver a ello a tí o otra persona.
  • Si vas a hacerlo dos veces, escribe una función. Te permite abstraer una pequeña pieza de código y te obliga a definir una interfaz, con lo que tendrás bien definidas las entradas y salidas.
  • Si vas a hacer algo tres veces o más, deberías pensar en escribir un pequeño paquete que agrupe el conjunto de operaciones que vas a realizar en un análisis dado. También es importante escribir algo de documentación que permita a la gente entender qué se supone que hace y les permita aplicar el software a una situación diferente si es necesario.

Comentarios


Unir varios archivos espaciales en un solo objeto `sf`

Las funciones del paquete purrr `map_dfr()` y `map_dfc()` permitian devolver un data frame a partir de la salida de un comando `purrr::ma...… Seguir leyendo

Usando Regresión Bayesiana por defecto para predicciones

Publicado el 12 de septiembre de 2024

El Teorema de Gauss-Markov

Publicado el 26 de mayo de 2024