En su libro Executive Data Science, Brian Caffo, Roger D. Peng y Jeffrey Leek dan la siguiente “regla del pulgar” sobre el grado de sistematización que es necesario darle a un conjunto de procedimientos o análisis en el contexto de un equipo de trabajo de ciencia de datos (data science):
- Si vas a realizar algo una vez, escribe algo de código y documéntalo bien. Lo importante es que estés seguro de entender lo que hace el código, para lo cual hace falta escribir buen código y documentarlo. Para estar seguro de que podrás reproducirlo si alguna vez te toca volver a ello a tí o otra persona.
- Si vas a hacerlo dos veces, escribe una función. Te permite abstraer una pequeña pieza de código y te obliga a definir una interfaz, con lo que tendrás bien definidas las entradas y salidas.
- Si vas a hacer algo tres veces o más, deberías pensar en escribir un pequeño paquete que agrupe el conjunto de operaciones que vas a realizar en un análisis dado. También es importante escribir algo de documentación que permita a la gente entender qué se supone que hace y les permita aplicar el software a una situación diferente si es necesario.