Skip to content

Teorema del límite central

WARNING

Se dieron algunos errores en la transcripción 3_12_1_limite_central_sumas.md

El teorema del límite central para sumas

Definición de la convergencia en la distribución

Considérese X1,,XN variables aleatorias independientes e idénticamente distribuidas (i.i.d.), con media común μXi=μ y desviación estándar σXi=σ. Sea además:

SN=X1++XN

la suma de ellas. Según el teorema del límite central, SNN(Nμ,Nσ2) conforme N. Alternativamente, si Z es una distribución normalizada de SN:

Z=SNμSNσSN=SNNμσN

entonces Z tiene una distribución fZ(z) que aproxima a N(0,1) conforme N.

Nota: N(0,1) es una función de distribución gaussiana de media 0 y varianza 1, donde N alude a "normal".


Visualización del teorema del límite central para sumas

Caso 1: convolución de la función de densidad

fSN(x1,,xN)=fX1(x1)fXN(xN)

Caso 2: simulación de la suma de datos aleatorios generados de N va Xiexponencial(1)

Deducción de la media y desviación estándar para la suma de va

Con respecto a la media de SN

E[SN]=E[X1+X2++XN]=μ+μ++μ=Nμ

Lo anterior se justifica porque E[Xi]=μ.

Con respecto a la desviación estándar de SN

σSN2=E[(SNSN)2]=E[SN2](E[SN])2

De la última identidad, se conoce el segundo término, que es la media de SN al cuadrado. Con respecto al primer término,

E[SN2]=E[(X1+X2++XN)2]=E[(X1+X2++XN)(X1+X2++XN)]=E[X12+X1X2+X1X3+X1XN+++XNX1+XNX2++XNXN1+XN2]=i=1NE[Xi2]+i=1Nj=1,jiNE[Xi]E[Xj]=N(σ2+μ2)+N(N1)μ2=Nσ2+Nμ2+N2μ2Nμ2=Nσ2+N2μ2

Finalmente,

σSN2=E[SN2](E[SN])2=Nσ2+N2μ2N2μ2=Nσ2

de donde se obtiene que la desviación estándar es σSN=σN.

Así se plantea, como antes,

Z=SNNμσN

Ejemplo de los resistores en serie

Los resistores tienen una resistencia nominal y un porcentaje de tolerancia. Por ejemplo, un resistor de 330 ohm con una tolerancia del 5 % se espera que tenga una resistencia entre 313,5 y 346,5 ohm.

Considérense cinco resistores de 330 ohm, escogidos aleatoriamente de una población con 5 % de tolerancia, y modélese la resistencia de cada una como una distribución uniforme en [313.5346.5]. Si son conectados en serie, ¿cuál es la distribución de la resistencia R del sistema, dada por R=X1++X5? Los Xi son los valores de resistencia (i.i.d.).

Una variable aleatoria uniformemente distribuida en [ab] tiene media μ=(a+b)/2 y desviación estándar σ=(ba)/12. Para cada resistencia:

  • la media es E[Xi]=(313.5+346.5)/2=330 Ω, es decir, la resistencia nominal
  • la desviación estándar es σ=(346.5313.5)/12=9.529 Ω

La resistencia del sistema en serie tiene una media y desviación estándar de

E[R]=Nμ=5330=1650 ΩSD[R]=Nσ=59.529=21.3 Ω

¿Cómo es la distribución de probabilidad de R=X1++X5? ¿Es R también distribuido uniformemente? Una simulación de 10 000 instancias distintas de R muestra:

Distribución suma resistores

que es una muy buena aproximación de N(μ,σ)=N(1650,21.3).


Ejemplo de la revisión de formularios antes del mediodía

Hay 40 formularios por revisar. Por los años de experiencia, la persona que los revisa sabe que el tiempo requerido para revisar cada uno es una variable aleatoria con un valor esperado de 6 minutos y una desviación estándar de 6 minutos. Si los tiempos de revisión son independientes y la persona inicia a las 7:50 a.m. revisando de forma continua, ¿cuál es la probabilidad de que termine antes de las 12:00 m.d.?

  • Recordar que Z=SNNμσN
  • También que fZ(z)N(0,1)
  • ¿Cuánto es N?
  • ¿Cuánto es μ?
  • ¿Cuánto es σ?
  • ¿Cuánto es el tiempo disponible?

Para este problema, se debe aplicar el teorema del límite central para sumas, puesto que se trabajará con la suma del tiempo de revisión de todos los formularios. De la información del enunciado:

  • 40 formularios: N=40
  • Tiempo promedio de revisión por formulario: μ=6
  • Desviación estándar: σ=6

La persona comienza a las 7:50 a.m. y para terminar antes de las 12:00 m.d. deberá hacerlo en menos de 250 minutos. El objetivo es, por tanto, encontrar P(SN250), o de forma equivalente, P(ZZ0), donde

Z0=S0NμσN=250406640=0.263

Es decir,

P(SN406640250406640)P(Z0.263)

Utilizando la tabla para probabilidades acumulativas para valores positivos de Z, el valor más cercano a 0.263 está dado para 0.26.

P(Z0.263)P(Z0.26)=0.602660.26%

La persona que revisa tiene un 60.26 % de probabilidad de completar la revisión de formularios antes del mediodía.

Definición de la convergencia en la media

Si {Xi}i=1N es una muestra de N elementos de una población, su media muestral es XN=SN/N=μN, donde SN=X1+X2++XN. Se puede considerar (2) para hacer

SNNμσN1/N1/N=XNμσ/N

Definición de convergencia en la media

Sean X1,,XN una muestra de variables aleatorias i.i.d. de una población con media común μ y desviación estándar σ y con una media de la muestra XN. Entonces

Z=XNμσ/N

aproxima N(0,1) conforme N. Equivalentemente, XNN(μ,σ2/N)

Visualización del teorema del límite central para medias de muestras

Aunque una población tenga una distribución con media μ=E[X], una realización o muestra de esta distribución tendrá casi siempre un valor ligeramente distinto.

Ejemplo de una distribución uniforme

Sea Xunif(0,1) con μ=E[X]=0.5. Sea además Xi una muestra de esta distribución con 500 elementos y con una media estadística de μXi=0.51380.5.

Al hacer una simulación de N muestras se obtienen N medias distintas μXi. ¿Cómo se distribuyen estos valores alrededor de μ y cómo cambia la distribución según N?

Entre más grande es N más "agrupados" están los valores de la media de la muestra XN=μN alrededor de la "media verdadera" de la población, μ.

Número de visitas mensuales al cajero automático

Suponga que el número de veces que un cliente utiliza el cajero automático de un banco en un mes es una variable aleatoria con un valor medio de 3,2 y una desviación estándar de 2,4. El banco conoce estos datos con exactitud pues puede monitorear cada visita de la población de sus miles de clientes.

Si se selecciona aleatoriamente una muestra de 100 clientes, ¿qué tan probable es que el promedio de veces que el cajero es utilizado en la muestra exceda 3,5?

La probabilidad solicitada es P(XN>3.5), donde XN es el valor medio de la muestra. La muestra es grande (N=100 clientes) y por tanto la distribución de XN se puede aproximar a una distribución normal.

P(XN>3.5)P(Z>3.5μσ/N)=P(Z>3.53.20.24)=1FZ(1.25)=0.1056

La probabilidad es pequeña porque la muestra es grande y la desviación estándar de la muestra es muy pequeña, de solo 0,24, de forma tal que la media de una muestra de 100 personas se acerca "bastante" a la media de la población de quizá milesde personas.


WARNING

Se dieron muchos errores en transcripción de 3_12_3_desigualdad_chebyshev.md

Desigualdad de Chebyshev

Premisas para la desigualdad de Chebyshev

Sea W una variable aleatoria con media 0. Esta es cualquier VA.

F:media_cero

  • La media de W es 0, pero cualquier realización simple de W puede estar bastante alejada de 0.
  • La varianza es una medida de la dispersión de los valores de W alrededor de 0.
  • Entre mayor el valor de la varianza de W, más probable es que el valor de W puede estar lejos de 0.

Dada la varianza σ2, ¿qué tan cercanos a μ=0 los valores de W podrían estar?

La desigualdad de Chebyshev

Fíjese un número ϵ>0 y búsquese la probabilidad de que W está más alejada que ϵ de su media μ=0. Supóngase que W tiene una función de densidad fW(w), entonces:

P(|W|ϵ)=|w|ϵfW(w)dw=w2ϵ2ϵ2ϵ2fW(w)dw

fXi(Xi)=λieλiX

F:epsilon

Es esperable que la probabilidad P(|W|ϵ) debería hacerse más grande conforme σ2 se hace más grande, puesto que los valores de W están más dispersos.

w2ϵ2ϵ2ϵ2fW(w)dww2ϵ2w2ϵ2fW(w)dww2ϵ2fW(w)dw=1ϵ2w2fW(w)dw=E[W2]ϵ2P(|W|ϵ)σ2ϵ2
  • La primera desigualdad es porque el intervalo de integración contiene los puntos w donde w2ϵ2 y, por lo tanto, el integrando será mayor si ϵ2 se reemplaza por w2.
  • La segunda desigualdad viene de aumentar el intervalo de integración de los puntos w donde w2ϵ2, a la recta numérica de a +.
  • E[W2] (el segundo momento ordinario) es igual en este caso a la varianza σ2 (el segundo momento central) porque la media es cero y σ2=E[W2]E2[W].

Desigualdad de Chebyshev

Si E[W]=0 y dado cualquier número positivo ϵ, el evento que W difiera en por lo menos ϵ de cero, está acotado por la probabilidad:

P(|W|ϵ)σ2ϵ2

Generalización de la desigualdad de Chebyshev

Si μ=E[X]0 pero W=Xμ, entonces E[W]=0, y el desarrollo anterior aplica a X:

Desigualdad de Chebyshev generalizada

Sea X una VA con media finita μ y varianza finita σ2. Entonces para ϵ>0 un número fijo, la probabilidad que X difiera en a lo menos ϵ de su media, está acotada:

P(|Xμ|ϵ)σ2ϵ2

O en términos del evento complementario: P(|Xμ|<ϵ)1σ2ϵ2.

Comentario: Este es un límite ``laxo'' en el sentido de que no es muy restrictivo y por tanto no muy preciso o informativo.

Ejemplo de {1,0,1} para Chebyshev

Si X tiene tres posibles valores: {1,0,1}, con probabilidades {118,89,118}, respectivamente. ¿Cuál es la probabilidad P(|Xμ|3σ) y cómo se compara con el límite de Chebyshev?

  • Recordar queE[X]=i=1NxiP(xi)
  • También queσX2=E[(XX)2]=E[X2]E2[X]
  • Siendo queP(|W|ϵ)σ2ϵ2
  • Pero una forma equivalente esP(|XμX|kσX)1k2

La media y la varianza de la VA discreta se obtienen de la siguiente forma:

E[X]=i=13xiP(xi)=(1)118+(0)89+(1)118=0Var[X]=i=13(xiE[X])2P(xi)=(1)2118+(0)289+(1)2118=19

Utilizando la definición provista de la desigualdad de Chebyshev, se obtiene

P(|XμX|kσX)=P(|X0|313)132=19

Mientras tanto, utilizando la PDF propiamente, se puede encontrar la probabilidad P(|X|1) solicitada. Considerando que solo hay tres valores posibles de X, {1,0,1}, los elementos de interés son {1,1} cuyas probabilidades son 1/18+1/18=1/9, igual que con Chebyshev.

En general, la desigualdad de Chebyshev será mucho menos restrictiva que el análisis de la PDF, pero en este caso de ejemplo resultaron iguales.

Desigualdad de Markov

Desigualdad de Markov

Si X es una VA con fX(x)=0 para x<0, entonces X es llamada una VA no-negativa, para la cual aplica la desigualdad de Markov:

P(Xϵ)E[X]ϵ

Comentario: En contraste con el límite de Chebyshev, que involucra tanto la media como la varianza, este límite requiere únicamente de la media de X.

Prueba de la desigualdad de Markov

La consideración es ahora en relación con la definición del valor esperado (el momento ordinario de primer orden):

E[X]=0xfX(x)dxϵxfX(x)dxϵϵfX(x)dx=ϵϵfX(x)dx=ϵP(Xϵ)

Ejemplo de los resistores de baja calidad

Planteamiento Es posible asumir que en la manufactura de resistores eléctricos de baja calidad de 1000 Ω, la resistencia promedio es en efecto de 1000 Ω, según se determina por un análisis estadístico de mediciones, pero hay una gran variación alrededor de este valor. Si todos los resistores por encima de 1500 Ω deben descartarse, ¿cuál es la fracción máxima de resistores que terminarían por fuera?

  • Recordar queP(Xϵ)E[X]ϵ

Del rigor en la ciencia — Jorge Luis Borges

En aquel Imperio, el arte de la cartografía logró tal perfección que el mapa de una sola provincia ocupaba toda una ciudad, y el mapa del Imperio, toda una provincia. Con el tiempo, estos mapas desmesurados no satisficieron y los colegios de cartógrafos levantaron un mapa del Imperio, que tenía el tamaño del Imperio y coincidía puntualmente con él.

Menos adictas al estudio de la cartografía, las generaciones siguientes entendieron que ese dilatado mapa era inútil y no sin impiedad lo entregaron a las inclemencias del sol y los inviernos. En los desiertos del oeste perduran despedazadas ruinas del mapa, habitadas por animales y por mendigos; en todo el país no hay otra reliquia de las disciplinas geográficas.