Teorema del límite central

WARNING

Se dieron algunos errores en la transcripción 3_12_1_limite_central_sumas.md

El teorema del límite central para sumas

Definición de la convergencia en la distribución

Considérese $X_{1}, \dots, X_{N}$ variables aleatorias independientes e idénticamente distribuidas ( $i . i . d .$ ), con media común $μ_{X_{i}} = μ$ y desviación estándar $σ_{X_{i}} = σ$ . Sea además:

S_{N} = X_{1} + \dots + X_{N}

la suma de ellas. Según el teorema del límite central, $S_{N} \sim N (N μ, N σ^{2})$ conforme $N \to \infty$ . Alternativamente, si $Z$ es una distribución normalizada de $S_{N}$ :

Z = \frac{S_{N} - μ_{S_{N}}}{σ_{S_{N}}} = \frac{S_{N} - N μ}{σ \sqrt{N}}

entonces $Z$ tiene una distribución $f_{Z} (z)$ que aproxima a $N (0, 1)$ conforme $N \to \infty$ .

Nota: $N (0, 1)$ es una función de distribución gaussiana de media 0 y varianza 1, donde $N$ alude a "normal".

Visualización del teorema del límite central para sumas

Caso 1: convolución de la función de densidad

$f_{S_{N}} (x_{1}, \dots, x_{N}) = f_{X_{1}} (x_{1}) * \dots * f_{X_{N}} (x_{N})$

Caso 2: simulación de la suma de datos aleatorios generados de $N$ va $X_{i} \sim exponencial (1)$

Deducción de la media y desviación estándar para la suma de va

Con respecto a la media de $S_{N}$

\begin{aligned} E [S_{N}] & = E [X_{1} + X_{2} + \dots + X_{N}] \\ = μ + μ + \dots + μ \\ = N μ \end{aligned}

Lo anterior se justifica porque $E [X_{i}] = μ$ .

Con respecto a la desviación estándar de $S_{N}$

\begin{aligned} {σ_{S_{N}}}^{2} & = E [{(S_{N} - \overset{―}{S_{N}})}^{2}] \\ = E [{S_{N}}^{2}] - {(E [S_{N}])}^{2} \end{aligned}

De la última identidad, se conoce el segundo término, que es la media de $S_{N}$ al cuadrado. Con respecto al primer término,

\begin{aligned} E [{S_{N}}^{2}] & = E [{(X_{1} + X_{2} + \dots + X_{N})}^{2}] \\ = E [(X_{1} + X_{2} + \dots + X_{N}) (X_{1} + X_{2} + \dots + X_{N})] \\ = E [X_{1}^{2} + X_{1} X_{2} + X_{1} X_{3} + \dots X_{1} X_{N} + \dots + \dots \\ \dots + X_{N} X_{1} + X_{N} X_{2} + \dots + X_{N} X_{N - 1} + X_{N}^{2}] \\ = \sum_{i = 1}^{N} E [X_{i}^{2}] + \sum_{i = 1}^{N} \sum_{j = 1, j \neq i}^{N} E [X_{i}] E [X_{j}] \\ = N (σ^{2} + μ^{2}) + N (N - 1) μ^{2} \\ = N σ^{2} + N μ^{2} + N^{2} μ^{2} - N μ^{2} \\ = N σ^{2} + N^{2} μ^{2} \end{aligned}

Finalmente,

\begin{aligned} {σ_{S_{N}}}^{2} & = E [{S_{N}}^{2}] - {(E [S_{N}])}^{2} \\ = N σ^{2} + N^{2} μ^{2} - N^{2} μ^{2} \\ = N σ^{2} \end{aligned}

de donde se obtiene que la desviación estándar es $σ_{S_{N}} = σ \sqrt{N}$ .

Así se plantea, como antes,

Z = \frac{S_{N} - N μ}{σ \sqrt{N}}

Ejemplo de los resistores en serie

Los resistores tienen una resistencia nominal y un porcentaje de tolerancia. Por ejemplo, un resistor de 330 ohm con una tolerancia del 5 % se espera que tenga una resistencia entre 313,5 y 346,5 ohm.

Considérense cinco resistores de 330 ohm, escogidos aleatoriamente de una población con 5 % de tolerancia, y modélese la resistencia de cada una como una distribución uniforme en $[313.5 346.5]$ . Si son conectados en serie, ¿cuál es la distribución de la resistencia $R$ del sistema, dada por $R = X_{1} + \dots + X_{5}$ ? Los $X_{i}$ son los valores de resistencia (i.i.d.).

Una variable aleatoria uniformemente distribuida en $[a b]$ tiene media $μ = (a + b) / 2$ y desviación estándar $σ = (b - a) / \sqrt{12}$ . Para cada resistencia:

la media es $E [X_{i}] = (313.5 + 346.5) / 2 = 330 Ω$ , es decir, la resistencia nominal
la desviación estándar es $σ = (346.5 - 313.5) / \sqrt{12} = 9.529 Ω$

La resistencia del sistema en serie tiene una media y desviación estándar de

\begin{aligned} E [R] & = N μ = 5 \cdot 330 = 1650 Ω \\ S D [R] & = \sqrt{N} σ = \sqrt{5} \cdot 9.529 = 21.3 Ω \end{aligned}

¿Cómo es la distribución de probabilidad de $R = X_{1} + \dots + X_{5}$ ? ¿Es $R$ también distribuido uniformemente? Una simulación de 10 000 instancias distintas de $R$ muestra:

Distribución suma resistores

que es una muy buena aproximación de $N (μ, σ) = N (1650, 21.3)$ .

Ejemplo de la revisión de formularios antes del mediodía

Hay 40 formularios por revisar. Por los años de experiencia, la persona que los revisa sabe que el tiempo requerido para revisar cada uno es una variable aleatoria con un valor esperado de 6 minutos y una desviación estándar de 6 minutos. Si los tiempos de revisión son independientes y la persona inicia a las 7:50 a.m. revisando de forma continua, ¿cuál es la probabilidad de que termine antes de las 12:00 m.d.?

Recordar que $Z = \frac{S_{N} - N μ}{σ \sqrt{N}}$
También que $f_{Z} (z) \to N (0, 1)$
¿Cuánto es $N$ ?
¿Cuánto es $μ$ ?
¿Cuánto es $σ$ ?
¿Cuánto es el tiempo disponible?

Para este problema, se debe aplicar el teorema del límite central para sumas, puesto que se trabajará con la suma del tiempo de revisión de todos los formularios. De la información del enunciado:

40 formularios: $N = 40$
Tiempo promedio de revisión por formulario: $μ = 6$
Desviación estándar: $σ = 6$

La persona comienza a las 7:50 a.m. y para terminar antes de las 12:00 m.d. deberá hacerlo en menos de 250 minutos. El objetivo es, por tanto, encontrar $P (S_{N} \leq 250)$ , o de forma equivalente, $P (Z \leq Z_{0})$ , donde

Z_{0} = \frac{S_{0} - N μ}{σ \sqrt{N}} = \frac{250 - 40 \cdot 6}{6 \sqrt{40}} = 0.263

Es decir,

P (\frac{S_{N} - 40 \cdot 6}{6 \sqrt{40}} \leq \frac{250 - 40 \cdot 6}{6 \sqrt{40}})

P (Z \leq 0.263)

Utilizando la tabla para probabilidades acumulativas para valores positivos de $Z$ , el valor más cercano a $0.263$ está dado para $0.26$ .

P (Z \leq 0.263) \approx P (Z \leq 0.26) = 0.6026 \Rightarrow 60.26 %

La persona que revisa tiene un 60.26 % de probabilidad de completar la revisión de formularios antes del mediodía.

Definición de la convergencia en la media

Si ${X_{i}}_{i = 1}^{N}$ es una muestra de $N$ elementos de una población, su media muestral es $\overset{―}{X_{N}} = S_{N} / N = μ_{N}$ , donde $S_{N} = X_{1} + X_{2} + \dots + X_{N}$ . Se puede considerar (2) para hacer

\frac{S_{N} - N μ}{σ \sqrt{N}} \cdot \frac{1 / N}{1 / N} = \frac{\overset{―}{X_{N}} - μ}{σ / \sqrt{N}}

Definición de convergencia en la media

Sean $X_{1}, \dots, X_{N}$ una muestra de variables aleatorias $i . i . d .$ de una población con media común $μ$ y desviación estándar $σ$ y con una media de la muestra $\overset{―}{X_{N}}$ . Entonces

Z = \frac{\overset{―}{X_{N}} - μ}{σ / \sqrt{N}}

aproxima $N (0, 1)$ conforme $N \to \infty$ . Equivalentemente, $\overset{―}{X_{N}} \sim N (μ, σ^{2} / N)$

Visualización del teorema del límite central para medias de muestras

Aunque una población tenga una distribución con media $μ = E [X]$ , una realización o muestra de esta distribución tendrá casi siempre un valor ligeramente distinto.

Ejemplo de una distribución uniforme

Sea $X \sim unif (0, 1)$ con $μ = E [X] = 0.5$ . Sea además $X_{i}$ una muestra de esta distribución con 500 elementos y con una media estadística de $μ_{X_{i}} = 0.5138 \neq 0.5$ .

Al hacer una simulación de $N$ muestras se obtienen $N$ medias distintas $μ_{X_{i}}$ . ¿Cómo se distribuyen estos valores alrededor de $μ$ y cómo cambia la distribución según $N$ ?

Entre más grande es $N$ más "agrupados" están los valores de la media de la muestra $\overset{―}{X_{N}} = μ_{N}$ alrededor de la "media verdadera" de la población, $μ$ .

Número de visitas mensuales al cajero automático

Suponga que el número de veces que un cliente utiliza el cajero automático de un banco en un mes es una variable aleatoria con un valor medio de 3,2 y una desviación estándar de 2,4. El banco conoce estos datos con exactitud pues puede monitorear cada visita de la población de sus miles de clientes.

Si se selecciona aleatoriamente una muestra de 100 clientes, ¿qué tan probable es que el promedio de veces que el cajero es utilizado en la muestra exceda 3,5?

La probabilidad solicitada es $P (\overset{―}{X_{N}} > 3.5)$ , donde $\overset{―}{X_{N}}$ es el valor medio de la muestra. La muestra es grande ( $N = 100$ clientes) y por tanto la distribución de $\overset{―}{X_{N}}$ se puede aproximar a una distribución normal.

P (\overset{―}{X_{N}} > 3.5) \approx P (Z > \frac{3.5 - μ}{σ / \sqrt{N}}) = P (Z > \frac{3.5 - 3.2}{0.24}) = 1 - F_{Z} (1.25) = 0.1056

La probabilidad es pequeña porque la muestra es grande y la desviación estándar de la muestra es muy pequeña, de solo 0,24, de forma tal que la media de una muestra de 100 personas se acerca "bastante" a la media de la población de quizá milesde personas.

WARNING

Se dieron muchos errores en transcripción de 3_12_3_desigualdad_chebyshev.md

Desigualdad de Chebyshev

Premisas para la desigualdad de Chebyshev

Sea $W$ una variable aleatoria con media 0. Esta es cualquier VA.

F:media_cero

La media de $W$ es 0, pero cualquier realización simple de $W$ puede estar bastante alejada de 0.
La varianza es una medida de la dispersión de los valores de $W$ alrededor de 0.
Entre mayor el valor de la varianza de $W$ , más probable es que el valor de $W$ puede estar lejos de 0.

Dada la varianza $σ^{2}$ , ¿qué tan cercanos a $μ = 0$ los valores de $W$ podrían estar?

La desigualdad de Chebyshev

Fíjese un número $ϵ > 0$ y búsquese la probabilidad de que $W$ está más alejada que $ϵ$ de su media $μ = 0$ . Supóngase que $W$ tiene una función de densidad $f_{W} (w)$ , entonces:

P (| W | \geq ϵ) = \int_{| w | \geq ϵ} f_{W} (w) d w = \int_{w^{2} \geq ϵ^{2}} \frac{ϵ^{2}}{ϵ^{2}} f_{W} (w) d w

$f_{X i} (X_{i}) = λ_{i} e^{- λ_{i} X}$

F:epsilon

Es esperable que la probabilidad $P (| W | \geq ϵ)$ debería hacerse más grande conforme $σ^{2}$ se hace más grande, puesto que los valores de $W$ están más dispersos.

\begin{aligned} \int_{w^{2} \geq ϵ^{2}} \frac{ϵ^{2}}{ϵ^{2}} f_{W} (w) d w & \leq \int_{w^{2} \geq ϵ^{2}} \frac{w^{2}}{ϵ^{2}} f_{W} (w) d w \\ \leq \int_{- \infty}^{\infty} \frac{w^{2}}{ϵ^{2}} f_{W} (w) d w \\ = \frac{1}{ϵ^{2}} \int_{- \infty}^{\infty} w^{2} f_{W} (w) d w \\ = \frac{E [W^{2}]}{ϵ^{2}} \\ P (| W | \geq ϵ) & \leq \frac{σ^{2}}{ϵ^{2}} \end{aligned}

La primera desigualdad es porque el intervalo de integración contiene los puntos $w$ donde $w^{2} \geq ϵ^{2}$ y, por lo tanto, el integrando será mayor si $ϵ^{2}$ se reemplaza por $w^{2}$ .
La segunda desigualdad viene de aumentar el intervalo de integración de los puntos $w$ donde $w^{2} \geq ϵ^{2},$ a la recta numérica de $- \infty$ a $+ \infty$ .
$E [W^{2}]$ (el segundo momento ordinario) es igual en este caso a la varianza $σ^{2}$ (el segundo momento central) porque la media es cero y $σ^{2} = E [W^{2}] - E^{2} [W]$ .

Desigualdad de Chebyshev
Si $E [W] = 0$ y dado cualquier número positivo $ϵ,$ el evento que $W$ difiera en por lo menos $ϵ$ de cero, está acotado por la probabilidad:
$P (| W | \geq ϵ) \leq \frac{σ^{2}}{ϵ^{2}}$

Generalización de la desigualdad de Chebyshev

Si $μ = E [X] \neq 0$ pero $W = X - μ$ , entonces $E [W] = 0$ , y el desarrollo anterior aplica a $X$ :

Desigualdad de Chebyshev generalizada

Sea $X$ una VA con media finita $μ$ y varianza finita $σ^{2}$ . Entonces para $ϵ > 0$ un número fijo, la probabilidad que $X$ difiera en a lo menos $ϵ$ de su media, está acotada:

P (| X - μ | \geq ϵ) \leq \frac{σ^{2}}{ϵ^{2}}

O en términos del evento complementario: $P (| X - μ | < ϵ) \geq 1 - \frac{σ^{2}}{ϵ^{2}}$ .

Comentario: Este es un límite ``laxo'' en el sentido de que no es muy restrictivo y por tanto no muy preciso o informativo.

Ejemplo de ${- 1, 0, 1}$ para Chebyshev

Si $X$ tiene tres posibles valores: ${- 1, 0, 1}$ , con probabilidades ${\frac{1}{18}, \frac{8}{9}, \frac{1}{18}}$ , respectivamente. ¿Cuál es la probabilidad $P (| X - μ | \geq 3 σ)$ y cómo se compara con el límite de Chebyshev?

Recordar que $E [X] = \sum_{i = 1}^{N} x_{i} P (x_{i})$
También que $σ_{X}^{2} = E [{(X - \overset{―}{X})}^{2}] = E [X^{2}] - E^{2} [X]$
Siendo que $P (| W | \geq ϵ) \leq \frac{σ^{2}}{ϵ^{2}}$
Pero una forma equivalente es $P (| X - μ_{X} | \geq k σ_{X}) \leq \frac{1}{k^{2}}$

La media y la varianza de la VA discreta se obtienen de la siguiente forma:

E [X] = \sum_{i = 1}^{3} x_{i} P (x_{i}) = (- 1) \frac{1}{18} + (0) \frac{8}{9} + (1) \frac{1}{18} = 0

Var [X] = \sum_{i = 1}^{3} (x_{i} - E [X])^{2} P (x_{i}) = (- 1)^{2} \frac{1}{18} + (0)^{2} \frac{8}{9} + (1)^{2} \frac{1}{18} = \frac{1}{9}

Utilizando la definición provista de la desigualdad de Chebyshev, se obtiene

P (| X - μ_{X} | \geq k σ_{X}) = P (| X - 0 | \geq 3 \frac{1}{3}) \leq \frac{1}{3^{2}} = \frac{1}{9}

Mientras tanto, utilizando la PDF propiamente, se puede encontrar la probabilidad $P (| X | \geq 1)$ solicitada. Considerando que solo hay tres valores posibles de $X$ , ${- 1, 0, 1}$ , los elementos de interés son ${- 1, 1}$ cuyas probabilidades son $1 / 18 + 1 / 18 = 1 / 9$ , igual que con Chebyshev.

En general, la desigualdad de Chebyshev será mucho menos restrictiva que el análisis de la PDF, pero en este caso de ejemplo resultaron iguales.

Desigualdad de Markov

Desigualdad de Markov

Si $X$ es una VA con $f_{X} (x) = 0$ para $x < 0$ , entonces $X$ es llamada una VA no-negativa, para la cual aplica la desigualdad de Markov:

P (X \geq ϵ) \leq \frac{E [X]}{ϵ}

Comentario: En contraste con el límite de Chebyshev, que involucra tanto la media como la varianza, este límite requiere únicamente de la media de $X$ .

Prueba de la desigualdad de Markov

La consideración es ahora en relación con la definición del valor esperado (el momento ordinario de primer orden):

\begin{aligned} E [X] = \int_{0}^{\infty} x f_{X} (x) d x & \geq \int_{ϵ}^{\infty} x f_{X} (x) d x \\ \geq \int_{ϵ}^{\infty} ϵ f_{X} (x) d x = ϵ \int_{ϵ}^{\infty} f_{X} (x) d x \\ = ϵ P (X \geq ϵ) \end{aligned}

Ejemplo de los resistores de baja calidad

Planteamiento Es posible asumir que en la manufactura de resistores eléctricos de baja calidad de 1000 $Ω$ , la resistencia promedio es en efecto de 1000 $Ω$ , según se determina por un análisis estadístico de mediciones, pero hay una gran variación alrededor de este valor. Si todos los resistores por encima de 1500 $Ω$ deben descartarse, ¿cuál es la fracción máxima de resistores que terminarían por fuera?

Recordar que $P (X \geq ϵ) \leq \frac{E [X]}{ϵ}$

Del rigor en la ciencia — Jorge Luis Borges

En aquel Imperio, el arte de la cartografía logró tal perfección que el mapa de una sola provincia ocupaba toda una ciudad, y el mapa del Imperio, toda una provincia. Con el tiempo, estos mapas desmesurados no satisficieron y los colegios de cartógrafos levantaron un mapa del Imperio, que tenía el tamaño del Imperio y coincidía puntualmente con él.

Menos adictas al estudio de la cartografía, las generaciones siguientes entendieron que ese dilatado mapa era inútil y no sin impiedad lo entregaron a las inclemencias del sol y los inviernos. En los desiertos del oeste perduran despedazadas ruinas del mapa, habitadas por animales y por mendigos; en todo el país no hay otra reliquia de las disciplinas geográficas.

Teorema del límite central ​

El teorema del límite central para sumas ​

Visualización del teorema del límite central para sumas ​

Caso 1: convolución de la función de densidad ​

Caso 2: simulación de la suma de datos aleatorios generados de N va Xi∼exponencial(1) ​

Deducción de la media y desviación estándar para la suma de va ​

Definición de la convergencia en la media ​

Visualización del teorema del límite central para medias de muestras ​

Desigualdad de Chebyshev ​

La desigualdad de Chebyshev ​

Generalización de la desigualdad de Chebyshev ​

Desigualdad de Markov ​

Prueba de la desigualdad de Markov ​

Del rigor en la ciencia — Jorge Luis Borges ​