P-value (primera parte)

Usted se apresta a pagar un delicioso perro caliente comprado en la calle cuando por descuido una moneda resbala de su mano y cae el suelo, permaneciendo al caer parada sobre su borde externo en perfecto equilibrio. Usted y el vendedor de comida se miran por un segundo, estupefactos. Después de todo ¿cuál es la probabilidad de que una moneda soltada al azar caiga y permanezca equilibrada sobre el borde? El asombro está más que justificado. Le pido que reflexione un momento sobre la naturaleza de ese asombro, y sobre los mecanismos lógicos en su cerebro que lo producen. Veamos: usted es una persona adulta y ha visto caer al suelo una moneda muchas veces. La experiencia de este experimento repetido ha sembrado, a través de los años, una idea intuitiva en su cerebro que consiste en la siguiente hipótesis:  una moneda en caída libre se comporta como un sistema binario: al caer, puede terminar en uno de solo dos estados posibles: cara o sello. Por eso, cuando un árbitro de fútbol echa suertes para decidir qué equipo escoge la mitad del campo en el que le corresponde defender, las opciones no son cara, sello o borde. El resultado posible es solo uno de dos posibilidades prácticamente exclusivas. Su hipótesis intuitiva está basada en un modelo del universo que su cerebro ha construido a partir de la experiencia, y está codificado en ciertas leyes de la física como la gravedad y la conservación del momento angular. Que un experimento como el que el azar le acaba de proporcionar con la moneda produzca un resultado tan inesperado es por decir lo menos, increíble, y lo es sobre todo cuando se considera que dicho experimento no tienen nada de particular, ni fue su desenlace planeado ni influenciado de manera alguna.

¿Qué significado le asigna usted a ese evento tan improbable? Lo más natural es atribuírselo a una extraordinaria coincidencia. Al fin y al cabo, de los miles de monedas que seguramente caen al suelo cada día, en un puñado de ocasiones las monedas en cuestión caerán equilibradas sobre el borde, como si obedecieran a alguna suerte de conjuro mágico. Pero usted no cree en lo sobrenatural, y al fin y al cabo las leyes de la física no impiden que la moneda caiga en sobre el borde, siempre que las fuerzas apropiadas se apliquen adecuadamente. Lo más probable es que concluya que a usted le ha correspondido la suerte de ser el afortunado ganador del evento improbable del día, aunque seguro habría preferido en ese caso ganarse la lotería, algo todavía más improbable. Ahora suponga que el vendedor de comida, un tipo incrédulo e inquisitivo por naturaleza, no está convencido de que tal coincidencia sea posible, de manera que deliberadamente toma una moneda diferente de su abultado bolsillo (es bien sabido que el negocio de los perros calientes es un negocio redondo), y la arroja al piso. A usted le cuesta sostenerse sobre sus piernas al comprobar que esta segunda moneda también ha caído en perfecto equilibrio sobre su borde externo. Una moneda de la suerte ya es un hecho bastante extraordinario, pero ¿dos monedas de la suerte?. No, aquí hay gato encerrado. A continuación el incrédulo negociante de salchichas vacía por completo en el aire su bolsillo de monedas, y todas ellas caen sobre el suelo mojado de la tarde lluviosa en exactamente la misma posición. El asunto ya raya en lo inverosímil.

No se de por vencida, amiga. La más increíble compra de comida que haya hecho jamás en la calle no tiene por qué apartarla del camino pedregoso pero seguro de la lógica. ¿Qué alternativas lógicas le quedan para explicar lo observado? No es difícil concluir que su reciente experiencia tiene una implicación ineludible: el modelo del mundo que usted tiene en su cabeza, la hipótesis sobre el comportamiento de las monedas que usted ha construido laboriosamente con base en evidencia previa, es un modelo equivocado para describir lo que usted acaba de observar. Tal vez la gravedad y la conservación del momento angular han dejado de ser válidas justo cuando usted salía del trabajo, o quizá el señor vendedor de salchichas ha instalado su puesto justo en una región del espacio-tiempo donde aplican leyes diferentes de la física (un lector más perspicaz podría recurrir a campos magnéticos en las inmediaciones, pero para propósitos didácticos, hagamos este relato más dramático). En cualquier caso, sus observaciones son absolutamente improbables si asumimos que ese modelo del mundo es cierto, y por lo tanto usted se ve en la penosa obligación de rechazar la hipótesis de que la gravedad y el momento angular actúan para permitir echar suertes con un “carisellazo”.

El argumento lógico que usted acaba de usar es el de reductio ad absurdum. Si una hipótesis determinada conduce a una conclusión contradictoria o absurda (en este caso, absolutamente improbable), entonces la hipótesis ha de estar equivocada. ¿Qué tan improbable debe ser la observación antes de que decidamos rechazar la hipótesis inicial? Bueno, pues debe ser lo suficientemente improbable como para que dejemos de creer que se trata de una coincidencia. Cuando la primera moneda cayó al suelo equilibrada sobre el borde, aún estuvimos dispuestos a considerarlo una extraordinaria coincidencia. Cuando lo hizo la segunda moneda, tal vez quedaría todavía algún acérrimo defensor de la gravedad como ley universal que estaría dispuesto a llamarlo una mala pasada del azar. Pero cuando todas las monedas juntas cayeron al suelo en exactamente en la misma e inesperada posición, habría sido una necedad recurrir al azar como explicación de lo observado, dado que es mucho más sensato desde el punto de vista lógico cuestionar la hipótesis asumida. El punto en el cual dejamos de creer en la coincidencia como posible explicación depende del experimento, pero también tiene un elemento subjetivo dictado por la incredulidad de cada persona. En cualquier caso, es posible llegar al acuerdo general de que pasado cierto nivel de improbabilidad, lo más inteligente es rechazar la llamada hipótesis nula.

Acabamos de describir un concepto fundamental en la ciencia, un concepto que se usa impunemente en miles de artículos científicos y que sin embargo es con frecuencia malinterpretado o empleado erróneamente incluso por experimentados científicos, viejos ratones de laboratorio a los que les ha faltado (no es culpa suya) una formación básica en probabilidad y estadística. El llamado p-value que aparece en cientos de artículos científicos como una manera de comprobar o rechazar una hipótesis científica, es una versión matemática del curioso experimento que acabamos de describir con ayuda de un perro caliente y unas cuantas monedas. Este famoso p-value que muchos científicos experimentales intentan “hackear” (algunos, como reporta Daniel Manrique en este manifiesto contra las prácticas actuales de la ciencia, quieren hacerlo más bajo a como dé lugar sin entender su significado) no es más que la probabilidad de obtener, en un experimento determinado, un resultado igual o mayor al valor medido cuando se asume la hipótesis nula. En el caso de las monedas, el p-value es la probabilidad de que todas las monedas caigan al suelo paradas equilibradas sobre el borde, si asumimos que nuestro modelo del mundo es correcto.

El  p-value es popular en las ciencias básicas, y también en las Humanidades, porque a menudo los científicos intentan refutar una hipótesis establecida, al menos bajo ciertas condiciones. Al fin y al cabo esa propiedad de auto-corrección es lo que hace de la ciencia un método tan poderoso para interpretar la realidad: Einstein reemplazó a Newton porque demostró que la hipótesis de Newton no era válida en ciertas circunstancias particulares de velocidad y gravedad (aun cuando tomó décadas corroborarlo con datos experimentales). Si soy un astrónomo midiendo la velocidad a la que se alejan las galaxias y quiero convencer a la comunidad científica de que la expansión del universo es una invención del castrochavismo y no un hecho real, entonces debo demostrar que mis datos sobre velocidad de las galaxias, tomados con toda la rigurosidad del caso, son absolutamente improbables si asumo que el universo está en expansión: el p-value de mis datos debe ser muy bajo, tan bajo que la idea de que la hipótesis de la expansión es correcta y mis datos el producto de una extraordinaria coincidencia sea capaz de arrancar carcajadas al público implacable que escuche mi presentación. Pero si mi p-value es compatible con la coincidencia o el azar (es decir, si es más grande que cierto valor convenido de acuerdo al experimento y a la experiencia), lo que no puedo hacer es pretender hacerlo más pequeño cambiando la hipótesis que pretendo refutar, ni estirando los datos para hacerlos incompatibles con esta última.

Esta última es la lección que todo científico debe aprender: un resultado compatible con la hipótesis nula también es un resultado, y es tan valioso para la ciencia como un resultado que la refuta. Esto se hace más evidente cuando consideramos situaciones en las que los datos son escasos. Un ejemplo interesante es: ¿qué tan probable es la existencia de una civilización técnica como la nuestra en este momento particular de la historia del Universo, si asumimos que las estrellas y los planetas se forman a cierta velocidad determinada dentro de las galaxias? En este caso, por desgracias, nosotros mismos somos el único dato disponible, y el valor del p-value puede convertirse en el carisellazo que decidirá si estamos o no solos en el Universo. Ese será el tema de la segunda parte de este post.

@juramaga

Rafael Martinez-Galarza

I am currently the deputy end-to-end scientist for the Chandra X-Ray Data Center at the Harvard-Smithsonian Center for Astrophysics (CfA), where I am in charge of all scientific aspects of the data system. In particular, I work on maximizing the scientific output derived from Chandra observations. PhD en astronomía - Leiden University