Seleccionar página

La gran mayoría del trabajo experimental en ciencias biomédicas y del comportamiento implica la comparación de grupos; en el caso más simple, un grupo experimental y otro de control. Los datos promedio se comparan y la variabilidad dentro de cada grupo se usa para estimar la probabilidad de que cualquier diferencia de medias pueda haber ocurrido por casualidad. El método de estimación típicamente utilizado, el método de Prueba Estadística de Hipótesis Nula (NHST), fue ideado por Ronald Fisher en un contexto que se discutirá en un momento.

Existen serios problemas que van desde los datos grupales hasta las propiedades de los individuos (el problema del objeto de investigación: Staddon, 2019), pero el primer gran problema que encontró el método NHST fue la replicación, expuesto en un artículo histórico de John Ioannidis (2005). El problema de la replicación es solucionable y se han propuesto varias soluciones. En julio de 2017, una carta a Science (Benjamin et al.), firmada por más de 70 estadísticos, sugirió que una solución al problema de la replicabilidad del NHST es establecer el criterio (nivel alfa) para rechazar la hipótesis nula (sin efecto). en p = 0,005 en lugar de la sugerencia de Ronald Fisher de p = 0,05, el estándar de entonces. Los autores argumentaron que en lugar de elegir una probabilidad de error de uno en veinte (o menos) como lo suficientemente buena como para aceptar la hipótesis de que su tratamiento tiene un efecto, el estándar debería aumentarse a uno en doscientos.

La replicabilidad a veces mejoraría con un criterio más estricto; pero un valor p tan pequeño también eliminaría gran parte de la investigación en ciencias sociales que utiliza NHST; la tasa de publicación en ciencias sociales y biomédicas se desplomaría. En parte por esta razón, más de 80 científicos firmaron una carta de noviembre de 2017 (Lakens et al, 2017) a Nature rechazando la sugerencia de Benjamin et al., recomendando en cambio «que la etiqueta ‘estadísticamente significativo’ ya no debería usarse» y concluyendo en cambio, “que los investigadores deben informar y justificar de manera transparente todas las elecciones que hacen al diseñar un estudio, incluido el alfa [critical p-value] nivel.»

La situación parece haberse calmado después de ese punto (para resúmenes, ver Baker, 2016 y Staddon, 2017). Ha habido algunos esfuerzos de mitigación: pre-registro de hipótesis, uso de grupos más grandes, etc. Pero el método NHST continúa siendo ampliamente utilizado.

El énfasis en estas dos largas cartas está en el tema de la replicación. Pero un poco de reflexión muestra que el método fisheriano es, de hecho, completamente inapropiado para la ciencia básica. La razón es vergonzosamente simple.

Fuente: Alena NV/Shutterstock

Fisher inventó el método NHST cuando trabajaba en un entorno aplicado, un entorno en el que se tenía que tomar una decisión, por ejemplo, entre dos fertilizantes u otros tratamientos de una parcela agrícola. Cada fertilizante tenía un cierto beneficio neto estimado. A continuación, se eligió el que tenía el beneficio significativamente mayor. El costo de un error (elegir el peor fertilizante, un falso positivo) es pequeño y potencialmente medible. En este caso, el costo no es un problema. Solo es necesario responder a la pregunta: ¿qué fertilizante es probablemente mejor? Para esa elección, el criterio del 5 por ciento es perfectamente apropiado.

En ciencia básica, la situación es muy diferente: las opciones son: “confirmar” o “no sé”; pero el costo del error es mucho mayor. El beneficio de confirmar correctamente una hipótesis experimental verdadera (es decir, rechazar la hipótesis nula) es una modesta contribución al conocimiento. Pero el costo del error, que parece confirmar una hipótesis que en realidad es falsa (falso positivo, error de tipo II), puede ser muy alto, tanto para la ciencia como para la sociedad. Los falsos positivos, al igual que los fraudes científicos, pueden tener efectos muy dañinos (ver, por ejemplo, Ritchie, 2020 y publicación de “Andrew”, 2021). Los estudios de seguimiento, en algunos casos muchos estudios, se irán por la madriguera del conejo y perderán tiempo y, probablemente, generarán más errores. Y como señalan informes recientes (por ejemplo, Randall et al., 2021), el costo, tanto humano como financiero, de las políticas públicas basadas en un error científico puede ser enorme.

Entonces, la conclusión es simple: el método Fisherian está bien para decidir entre dos tipos de fertilizante; es inadecuado para decidir entre la verdad y la falsedad. Simplemente es incorrecto confiar en el método NHST en ciencias sociales o biomédicas básicas.

¿Cuál es la alternativa? No hay una respuesta obvia más allá del ingenio humano. Tal vez valga la pena recordar que Hermann Ebbinghaus descubrió las leyes básicas de la memoria utilizando solo un sujeto, él mismo, en estudios que ahora no cumplirían con los estándares algorítmicos de la comunidad NHST, por lo que no «¡Dóblalo como Beckham!» pero ¿»Piensa como Ebbinghaus»?

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información

ACEPTAR
Aviso de cookies