Regla del pulgar: programación de análisis

Se tarda en leer ~1 minuto

En su libro Executive Data Science, Brian Caffo, Roger D. Peng y Jeffrey Leek dan la siguiente “regla del pulgar” sobre el grado de sistematización que es necesario darle a un conjunto de procedimientos o análisis en el contexto de un equipo de trabajo de ciencia de datos (data science):

  • Si vas a realizar algo una vez, escribe algo de código y documéntalo bien. Lo importante es que estés seguro de entender lo que hace el código, para lo cual hace falta escribir buen código y documentarlo. Para estar seguro de que podrás reproducirlo si alguna vez te toca volver a ello a tí o otra persona.
  • Si vas a hacerlo dos veces, escribe una función. Te permite abstraer una pequeña pieza de código y te obliga a definir una interfaz, con lo que tendrás bien definidas las entradas y salidas.
  • Si vas a hacer algo tres veces o más, deberías pensar en escribir un pequeño paquete que agrupe el conjunto de operaciones que vas a realizar en un análisis dado. También es importante escribir algo de documentación que permita a la gente entender qué se supone que hace y les permita aplicar el software a una situación diferente si es necesario.

Comentarios


Usando Regresión Bayesiana por defecto para predicciones

En "Regression and other stories"[^libro], Gelman y compañía comentan que una de las ventajas del planteamiento bayesiano es que todas la...… Seguir leyendo

El Teorema de Gauss-Markov

Publicado el 26 de mayo de 2024

Testing I

Publicado el 05 de octubre de 2021