Usando Regresión Bayesiana por defecto para predicciones

ciencia de datos
R
Autor/a

David Mateos

Fecha de publicación

12 de septiembre de 2024

En “Regression and other stories”1, Gelman y compañía comentan que una de las ventajas del planteamiento bayesiano es que todas las inferencias son probabilísticas y por tanto se pueden representar como simulaciones aleatorias. Por eso, cuando quieren resumir la incertidumbre de una estimación más allá de los simples intervalos de confianza y cuando quieren usar modelos de regresión para predicciones, se van al método bayesiano.

Así que recomiendan usar en general la inferencia bayesiana para las regresiones: si hay información previa disponible, se usa; y si no, una regresión bayesiana como prioris poco informativos aun tiene la ventaja de proporcionar estimaciones estables y producir simulaciones que nos permiten expresar incertidumbre inferencial y predictiva (o sea, estimadores con incertidumbres y predicciones probabilísticas).

Así, en general, en vez de:

fit <- lm(y~x, data=mis_datos)

usar:

library(rstanarm)
fit <- stan_glm(y~x, data=mis_datos)

Advierten que stan_glm puede ser lento con problemas grandes (no está claro cuánto es “grande”), en cuyo caso habría que usar la forma optimizada:

library(rstanarm)
fit <- stan_glm(y~x, data=mis_datos, algorith = "optimizing")

Notas

  1. Gelman, A., Hill, J., & Vehtari, A. (2021). Regression and other stories. Cambridge University Press.↩︎