Skip to content

Teorema de Bayes

Introducción

Como uno de los resultados más útiles de la teoría de probabilidad, el teorema de Bayes permite actualizar el conocimiento o recalcular la probabilidad de un evento de interés cuando encontramos nueva evidencia de su ocurrencia.

Pregunta

❤ La prueba médica (la evidencia) resultó negativa, ¿cuál es la probabilidad de que realmente no tenga la enfermedad?


Sean A y B eventos en los que se asume inicialmente una dependencia de B a la ocurrencia de A tal que, si P(A)0,

P(BA)=P(BA)P(A)

También existe una relación inversa en que, si P(B)0, se cumple que

P(AB)=P(AB)P(B)

Del álgebra de conjuntos se sabe que P(BA)=P(AB), y es posible igualar estas dos ecuaciones,resultando:

"Regla de la probabilidad condicional inversa"

P(AB)=P(BA)P(A)P(B)

Una ecuación equivalente se obtiene de una sustitución de P(B) en términos de una probabilidad total:

Ejemplo

P(AnB)=P(BAn)P(An)P(BA1)P(A1)++P(BAN)P(AN)

donde An es una partición universal para n=1,2,,N.

Una intuición importante de esta ecuación es que la ocurrencia de B puede deberse a múltiples factores (en este caso, cualquiera entre A1,,AN), pero estamos interesados en la relación con uno de ellos en particular, An.

Esta relación puede, o no, ser de causalidad.

Definiciones:

Ejemplo

P(AnB)=P(BAn)P(An)P(BA1)P(A1)++P(BAN)P(AN)
  • P(An): probabilidades a priori, dado que se conocen para cada evento An antes de la ejecución del experimento.
  • P(BAn): son probabilidades condicionales directas o probabilidades de transición en teoría de telecomunicaciones. Típicamente son conocidas antes de ejecutar el experimento.
  • P(AnB): probabilidades a posteriori o condicionales inversas, dado que se investigan después de la ejecución del experimento, cuando se obtiene un evento B.

Ejemplo de incidencia de una enfermedad poco común

Se ha desarrollado un examen de diagnóstico para una enfermedad extraña que afecta solo a 1 de cada 1000 adultos. En análisis estadísticos médicos de clasificación binaria (sí o no) se define:

Definiciones:

  • Sensitividad: Un resultado positivo implica que el individuo efectivamente tiene la enfermedad en el 99 % de los casos (también llamada probabilidad de detección). Un resultado contrario es un falso negativo.

  • Especificidad: Un individuo sin la enfermedad dará resultado negativo 98 % de las veces (también llamada tasa negativa verdadera). Un resultado contrario es un falso positivo.

¿Cuál es la probabilidad de que el paciente sí tenga la enfermedad si el diagnóstico es positivo?

Cálculo con el Teorema de Bayes:

Árbol de probabilidad de Bayes

P(BA)=P(AB)P(B)P(AB)P(B)+P(AB)P(B)=(0.99)(0.001)(0.99)(0.001)+(0.02)(0.999)=0.04725%

La probabilidad de que el paciente sí tenga la enfermedad es del 5 %… a pesar de que el resultado del examen fue positivo.

"¿Por qué es tan baja esta probabilidad, con una sensibilidad de la prueba del 99 %?"


Otros valores comunes

  • Cuadro: Otros valores de sensitividad y especificidad para algunos exámenes de enfermedades comunes
EnfermedadSensitividadEspecificidad
Cáncer de próstata85 %30 %
Cáncer de mama75 %92 %
Cáncer de colon86 %93 %
COVID-19 BioMedomics89 %91 %

Ejemplo del apagón en el sistema eléctrico

Un barrio de Heredia experimenta un apagón. Una ingeniera de operación y mantenimiento de ESPH está cerca de ahí e inmediatamente sospecha de cuatro orígenes de la falla: (A1) en la línea de transmisión Colima - Heredia, (A2) en el transformador de la subestación de Heredia, (A3) en la línea de distribución hacia San Pablo o en (A4) el transformador del poste.

Sabe la ingeniera que ante una falla en el transformador de subestación siempre habrá una desconexión permanente. ¿Cuál es la probabilidad de que la causa de la desconexión permanente haya sido una falla en (A2) el trafo de subestación?

Las protecciones del sistema eléctrico ejecutan dos operaciones ante una falla: o (B) una desconexión permanente o (B) un "recierre" luego de un tiempo prudencial si la falla ha desaparecido.

Los datos conocidos para el último mes son los siguientes:

FallaCasosRecierreDesconexión
A1 Línea de transmisión321
A2 Trafo de subestación303
A3 Línea de distribución1697
A4 Trafo de poste808

Para encontrar la probabilidad de cada falla, analizamos su frecuencia relativa con los datos provistos (se descartan aquí otros tipos de fallas). Por tanto

  • P(A1)=3/30=0.10
  • P(A2)=3/30=0.10
  • P(A3)=16/30=0.5333
  • P(A4)=8/30=0.2666

Sean B={desconexión permanente} y B={recierre}. La probabilidad que buscamos es una proporción entre el evento de interés y todas las posibilidades juntas:

Probabilidad de que A2 sea la causa de B=Probabilidad de que sucedan A2 y BSuma de las probabilidades de todas las combinaciones An y B

y que puede expresarse como:

P(A2B)=P(A2B)P(n=14AnB)=P(A2)P(BA2)P(B)

que es otra forma de escribir la regla de Bayes. La gráfica a continuación muestra los "caminos" posibles y el evento de interés está resaltado.

Árbol

Con P(BA1)=13=0.3333, P(BA2)=1, P(BA3)=716=0.4375, P(BA4)=1:

INFO

P(A2B)=P(A2)P(BA2)P(A1)P(BA1)+P(A2)P(BA2)+P(A3)P(BA3)+P(A4)P(BA4)=(0.1)(1)(0.1)(0.3333)+(0.1)(1)+(0.5333)(0.4375)+(0.2666)(1)=0.1579

que representa una probabilidad quizá más baja de lo esperado. A pesar de que una falla en el transformador de subestación siempre provoca una desconexión permanente (y el consiguiente apagón), no son fallas comunes, y por eso su probabilidad sigue siendo baja. En este problema las probabilidades más alta son las de fallas de líneas de distribución P(BA3)=0.3684 (expuestas a ramas, choques, etc.) y los trafos de poste P(BA4)=0.4210, que son menos casos pero siempre implican desconexión.


Ejemplo de los distribuidores de jocotes

Tres distribuidores de frutas, A, B y C, entregan jocotes a un supermercado. Un día la inspección de producto encuentra, con cierto alborozo, una "guápil" (dos jocotes que nacieron juntos) en un contenedor donde están todos los jocotes de todos los distribuidores, revueltos e indistinguibles entre sí. En este lote de producto, A entregó (aproximadamente) 800 jocotes, B 700 y C 500. En estudios previos se ha determinado que la incidencia de guápiles en cada distribuidora es del 1% en A, del 2% en B y del 5% en C.

"¿Cuál es la probabilidad de encontrar una guápil? Si una guápil es encontrada, ¿cuál es la probabilidad de que vino de C?"

Sean P(A), P(B) y P(C) las probabilidades de encontrar un jocote de los distribuidores A, B y C, respectivamente. No son equiprobables, sino que están obtenidas por frecuencia relativa de la forma:

P(A)=800800+700+500=8002000=0,4P(B)=7002000=0,35P(C)=5002000=0,25

La probabilidad de encontrar una guápil, P(G), es la probabilidad total dada por:

P(G)=P(A)P(GA)+P(B)P(GB)+P(C)P(GC)=0.40.01+0.350.02+0.250.05=0.0235=2.35%

La probabilidad condicional inversa de que si una guápil fue encontrada esta vino del distribuidor C, P(CG), viene dada por el teorema de Bayes como:

P(CG)=P(C)P(GC)P(G)=P(C)P(GC)P(A)P(GA)+P(B)P(GB)+P(C)P(GC)=0.250.050.0235=0.5319=53.2%

Observar (resaltado) como la probabilidad de que la guápil vino de C es una proporción con las probabilidades de que venga de los otros distribuidores.


Videos y referencias en internet