# Guía 8 ## Intervalos de Confianza Frecuentistas y Bayesianos - Tenemos una muestra al azar $\{X_i\}$ de una distribución uniforme $[0,\theta]$, y queremos obtener un intervalo de confianza para $\theta$. Consideremos la estadística $Y=\max\{X_1,\ldots,X_n\}$. Claramente, $Y \leq \theta$, por lo que dos intervalos razonables podrían ser $[aY,bY]$ o $[Y+c,Y+d]$ con $1 \le a < b$ y $0 \le c < d$, a ser elegidos según el nivel de confianza deseado. Muestre que: 1. la densidad de probabilidad de $Y$ es $$ f_Y(t) = \left\{\begin{array}{ll} 0 & t \leq 0 \\ n \, t^{n-1}/\theta^n & 0 < t \leq \theta \\ 0 & t > \theta \end{array}\right. $$ (repasar el ejercicio de valores extremos de la guía 3). 2. la cobertura del intervalo $[aY,bY]$ es $a^{-n}-b^{-n}$, independiente de $\theta$. 3. la cobertura del intervalo $[Y+c,Y+d]$ es: $(1-c/\theta)^n-(1-d/\theta)^n$. 4. el intervalo $[Y+c,Y+d]$ tiene nivel de confianza (CL, *confidence level*) nulo, mientras que $[aY,bY]$ no. ¿Cuánto vale el CL de este último intervalo? 5. al medir $X$ se obtienen $\{7.2, 6.4, 9.1, 2.2, 5.3\}$; calcule el intervalo de 90% CL más corto posible. Estime cuantos datos serían necesarios para conseguir un intervalo de 90% CL de longitud $0.5$. 6. Dibuje el cinturón de confianza (90% CL) en el plano $Y-\theta$, tal que uno de los bordes del cinturón sea la recta $\theta=Y$. Muestre que el intervalo de confianza obtenido es de la forma $[Y,kY]$. Halle el valor de $k$ y compare con el resultado del ítem 2. - Para estimar la incerteza de un instrumento, se mide repetidas veces una magnitud obteniéndose $\{1002, 1000, 997, 1001, 1001, 999, 998, 999, 1000, 1003\}$. Obtenga una cota superior con 95% CL para la varianza bajo la suposición de que los errores son gaussianos. $\sigma^2\leq 9.02$ - Se realizan $n=18$ sucesivas mediciones de una magnitud física obteniéndose {128, 281, 291, 238, 155, 148, 154, 232, 316, 96, 146, 151, 100, 213, 208, 157, 48, 217}. Encuentre un intervalo de confianza frecuentista de 95% CL para la media de esta magnitud, bajo la suposición de que los errores son gaussianos. $I = [\bar{x} - c \sqrt{s^2/n}, \bar{x} + c \sqrt{s^2/n}] = [146.25, 218.09]$, con $c=2.110$ - Usando un generador de números aleatorios gaussianos $N(\mu,\sigma)$, con $\mu = 10$ y $\sigma = 2$, genere 1000 ternas $\{x_1, x_2, x_3\}$. 1. Para cada terna calcule los valores de $\sqrt{n}(\bar{x} - \mu)/\sigma$, $nS^2/\sigma^2$, $(n-1)s^2/\sigma^2$, $\sqrt{n}(\bar{x} - \mu)/s$ (con $n = 3$). Confeccione un histograma normalizado para cada una de las cuatro variables, y superpóngale la correspondiente distribución teórica (respectivamente, $N(0,1)$, $\chi^2_{\nu=3}$ , $\chi^2_{\nu=2}$ y $t_{(2)}$). 2. Para cada terna calcule el intervalo de 95% de nivel de confianza para $\sigma^2$, suponiendo primero que $\mu$ es conocido y luego que no lo es. En ambos casos, verifique cuantas veces el verdadero valor de $\sigma^2$ queda comprendido dentro del correspondiente intervalo de confianza. En general, este número no será exactamente 95%. Analice si la diferencia obtenida es consistente con la fluctuación binomial esperada. ¿Por qué es binomial la fluctuación? 3. Para cada terna, calcule el intervalo de 95% de nivel de confianza para $\mu$, suponiendo primero que $\sigma^2$ es conocido y luego que no lo es. En ambos casos, verifique cuantas veces el verdadero valor de $\mu$ queda comprendido dentro del correspondiente intervalo de confianza. Analice si la diferencia obtenida es consistente con la fluctuación binomial esperada. - Considere $n$ mediciones independientes $\{x_i\}$ de una variable con error exponencial. 1. Muestre que $T=\sum_{i}^{n} x_i$ tiene distribución $\text{Gamma}(n,1/\lambda)$, y que $Q = 2\lambda T$ tiene distribución $\chi^2$, independiente de $\lambda$ (¿con cuántos grados de libertad?) 2. Utilice el resultado del ítem anterior para encontrar una cota superior para $\lambda$ de 90% CL [intervalo frecuentista $(0,\lambda)$], si al realizar las mediciones se obtiene: 4.2, 1.0, 0.1, 2.0, 1.5. $\lambda<0.91$ - Se quiere estudiar la relación entre el brillo máximo de un cierto tipo de estrellas variables y el período de sus variaciones de brillo. Para ello se mide, para cada estrella $i$ ($1 \leq i \leq 5$), la cantidad de fotones $F_i$ que llegan al detector durante un tiempo $t_i$, en el momento que alcanza su máximo brillo. Se mide además la cantidad de fotones $F_c$ que llegan de una región del cielo libre de estrellas durante un tiempo $t_c$. Los brillos se determinan mediante $$B_i = \frac{F_i}{t_i} - \frac{F_c}{t_c}.$$ El período $P_i$ de la variación del brillo de cada estrella se mide determinando el tiempo entre dos instantes de máximo brillo sucesivos. Esta medición es mucho más precisa, por lo que se considera de error despreciable. El valor obtenido para el cielo es $F_c = 1021$ fotones, medidos durante un $t_c = 100 \text{ s}$. Considere insignificante el error en $t_c$ y $t_i$. Para las estrellas se obtuvieron los siguientes datos: | Estrella | 1 | 2 | 3 | 4 | 5 | |------------------|--------|-------|-------|-------|-------| | $P_i$ ($s$) | 18.71 | 2.79 | 13.61 | 12.08 | 1.89 | | $F_i$ (fotones) | 4854 | 2586 | 3752 | 3753 | 2605 | | $t_i$ ($s$) | 200 | 100 | 150 | 150 | 100 | Un modelo teórico predice que el brillo máximo de la estrella $B$ y su período $P$ están relacionados mediante la ecuación $B = \beta + \alpha \log_{10} P$. Determine la mejor estimación del valor de los parámetros $\hat{\alpha}$ y $\hat{\beta}$ del modelo con su matriz de error. Dibuje a mano alzada las regiones de confianza frecuentistas con una probabilidad conjunta del 39.3%, 86.5% y 98.9% CL. ¿Por qué hemos elegido en particular estos números? $\hat{\alpha} = -1.59 \pm 0.62$, $\hat{\beta} = 16.36 \pm 0.69$, $Cov(\hat{\alpha},\hat{\beta}) = -0.353$ - Un experimento mide la impedancia de un elemento en un circuito, $Z = R + i X$, obteniendo $R_1 = 0.12 \text{ k}\Omega$ y $X_1 = -0.25 \text{ k}\Omega$, con matriz de covarianza $V_1$. Se realiza una segunda experiencia independiente de la primera, esta vez con un ohmetro que sólo puede medir la resistencia, obteniendo $R_2 = 0.01 \pm 0.08 \text{ k}\Omega$. $$ V_1 = \left( \begin{array}{rr} 0.01 & -0.01 \\ -0.01 & 0.04 \end{array} \; \right) $$ 1. Muestre que de la combinación de ambos resulta $R = 0.052 \text{ k}\Omega$ y $X = -0.183 \text{ k}\Omega$, con matriz de error $V_{combinado}$. $$ V_{combinado} = \left( \begin{array}{rr} 0.004 & -0.004 \\ -0.004 & 0.035 \end{array} \; \right) $$ 2. Dibuje en el plano $R-X$ los intervalos de confianza frecuentistas $2\,\sigma$ para cada experimento separado y en conjunto. Explique a partir del gráfico como es posible que el segundo experimento haya modificado la estimación de la reactancia, teniendo en cuenta que sólo se midio la resistencia. 3. Encuentre el intervalo de confianza de 68% CL para $\tan\phi=X/R$. $\tan\phi = -3.51 \pm 4.56$ Discuta si presenta algún interés un resultado como éste, en que el error es mayor que el resultado. ¿Cómo varía $\tan\phi$ si se hubiera olvidado de considerar la correlación entre la parte real e imaginaria? - Se mide repetidamente el número de decaimientos de una fuente radioactiva que ocurren durante un 1 seg, obteniéndose: 1, 0, 0, 2, 0, 0, 1, 0, 2, 0. 1. Encuentre el intervalo de confianza central frecuentista de 90% CL para la actividad de la fuente. 2. Usando que si $Y \sim \text{Poisson}(k, \lambda)$, entonces $P(Y\ge k)=P(X\le2\lambda)$, con $X\sim\chi^2_{(2k)}$, reexprese el intervalo de confianza obtenido en el inciso anterior en términos de los cuantiles de la distribución $\chi^2_{\nu}$. $(1/20)\chi^2_{(12),0.05} \le \lambda \le (1/20)\chi^2_{(14),0.95}$, $I=[0.262,1.184]$ 3. Compárelo con el correspondiente intervalo bayesiano para un prior $\text{Gamma}(1,1)$ $[0.262,1.184]$ y $[0.299,1.077]$. - En el Gran Colisionador de Hadrones del CERN chocan protones cada 25 ns. En cada cruce hay una probabilidad $p$ de producir un bosón de Higgs. Un experimento consiste en contar cuántos cruces $n$ se deben esperar para producir $k$=50 Higgses. La distribución de $n$ es la binomial negativa: $$P(X=n|k,p) = \binom{n-1}{k-1}\,p^k\,(1-p)^{n-k}$$ con $\text{E}(n) = \frac{k}{p}$ y $\text{Var}(k)=k\frac{1-p}{p^2}$. 1. Muestre que la distribución conjugada de la binomial negativa es la $\text{Beta}(\alpha,\beta)$. 2. Encuentre la relación de transformación de prior a posterior y la expresión del estimador bayesiano $\hat{p}$. 3. Se realiza el experimento y se obtiene $n=12341$. Exprese $p$ con su error al 90% CL. Elija un prior razonable y analice cuanto depende su resultado de esta elección. - Muestre que la distribución de Pareto, $\text{Pa}(x|\alpha,x_0) = \alpha x_0^\alpha/x^{\alpha+1}$ para $x \ge x_0$, es una familia conjugada para la distribución uniforme $[0,\theta]$. 1. Encuentre el estimador de Bayes para $\theta$ a partir de $n$ datos $\{X_i\}$ y de los parámetros $x_0$, $\alpha$ del prior. $\hat{\theta}=\max\{x_i,x_o\}\,(\alpha+n)/(\alpha+n-1)$ 2. Se realizan 5 mediciones obteniendose 3.1, 7.0, 1.6, 8.2, 6.8; halle $\hat{\theta}$ y un límite superior de 90% CL, tomando el prior impropio $\pi(\theta)=1\;(\theta>0)$. - Se denomina *branching ratio* (BR) de un cierto canal de decaimiento de un núcleo o partícula inestable a la probabilidad que al decaer lo haga por ese canal. Un experimento intenta determinar una cota inferior (90% CL) al BR del canal $A\rightarrow B+C$ de una partícula $A$ que es difícil de producir. Para ello logran generar 10 partículas y observa que en 9 casos decae por el canal $B+C$. Determinar el intervalo de confianza deseado tanto frecuentista como bayesiano (éste con prior uniforme). 0.663 y 0.690 - El experimento DØ buscó monopolos pesados de Dirac en colisiones $p\bar{p}$ (Phys. Rev. Lett 81, 524, 1998) a través de la producción de pares de fotones con alto momento. Esta señal tiene un *background* debido a bosones $Z$, que decaen $Z\rightarrow ee$ con un BR de 3.4%, si ambos electrones son confundidos como fotones por ineficiencias en la reconstrucción (electrones se distinguen de fotones por dejar trazas en el detector central). Este *background* fue estimado mediante simulaciones en $\mu_b=3.1$ para el año 1995. 1. En 1995 se observaron 5 eventos $\gamma\gamma$ de alto momento, consistentes con el *background* esperado. Se concluye entonces que no se puede establecer evidencia de producción de monopolos. Establezca una cota superior (intervalo de confianza $(0,\mu_m^{\scriptscriptstyle MAX})$ de 90% CL) tanto frecuentista como bayesiana (prior impropio uniforme) para $\mu_m$, el número esperado de monopolos durante 1995. 2. Suponga que no se hubiera observado ningún evento $\gamma\gamma$. Muestre que en este caso el intervalo de confianza frecuentista $(0,\mu_m)$ es el conjunto vacío, o sea que ni siquiera incluye $\mu_m=0$. Explique porqué ésto no es inconsistente, al menos desde un punto de vista matemático. Muestre que por el contrario este problema no se presenta con la cota superior 90% CL bayesiana.