# Guía 7
## Estimación puntual de parámetros
***Consistencia y Sesgo***
1.
Considere el estadístico $S^2=\sum^{n}_{i}(x_i-\mu)^2/n$, donde los
$x_i$ son variables aleatorias independientes e idénticamente
distribuidas y la esperanza $E(x_i)=\mu$ es conocida.
1. ?'Puede $S^2$ ser considerado un *estadístico* dado que no solo
es función de las observaciones sino también de los parámetros
$\mu$ y $n$?
2. Mostrar que es un estimador no sesgado de la varianza de $X$.
3. Encuentre el error de $S^2$ cuando los $x_i$ son gaussianos.
4. ?'Cuánto vale la varianza de $S^2$ al usar la fórmula de
propagación de errores? ?'Porqué
falla? ["Var($S^2$)"=0]{style="color: 0.9,0,0"}
2.
[]{#itm:varianza_muestra label="itm:varianza_muestra"} Muestre que
$s^2=\sum^{n}_{i}(x_i-\bar{x})^2/n$ es un estimador sesgado de
Var($X$), cuyo bias vale $-\sigma^2/n$, mientras que
$\tilde{s}^2=\sum^{n}_{i}(x_i-\bar{x})^2/(n-1)$ es no sesgado.
3.
Usando la desigualdad de Tshebycheff, muestre que
$S^2=\sum^{n}_{i}(x_i-\mu)^2/n$ es un estimador consistente de la
varianza cuando la esperanza $\mu$ es conocida, para el caso que los
$\{x_i\}$ tienen distribución normal.
4.
Establezca una condición suficiente para que
$S^2=\sum^{n}_{i}(x_i-\mu)^2/n$ sea un estimador consistente de la
varianza, cuando los $\{x_i\}$ tienen distribución arbitraria.
Intente no hacer más cuentas que en el ejercicio anterior.
5.
En general, que $t$ sea un estimador no sesgado de $\theta$, no
implica que $t^2$ sea no sesgado para $\theta^2$.
1. Convénzase intuitivamente que ésto es cierto, sin hacer cuentas,
para el caso que $\theta=E(x)$ y $t=\bar{x}$, con $f_X(x)$
simétrica alrededor de $x=0$.
2. Sea $k$ una variable aleatoria con distribución binomial
$B_k(n,p)$. Muestre que $t=k/n$ es un estimador no sesgado de
$p$, mientras que $t'=(k/n)^2$ no lo es para $p^2$. Halle el
bias de $(k/n)^2$, y a partir de éste encuentre un estimador no
sesgado de $p^2$.
***Eficiencia y Mínima varianza***
1.
Escriba la función verosimilitud para un experimento binomial
$B_k(n,p)$, y aplicando la relación de Cramer-Rao muestre que
$t=k/n$ es un estimador 100% eficiente de $p$. ?'Cuánto vale $V(t)$?
2.
Muestre que la aplicación de la desigualdad de Cramer-Rao al
parámetro $\sigma$ de la distribución normal $N(\mu,\sigma)$
establece que existe una única función de $\sigma$ con estimador
100% eficiente, y permite encontrar su estimador, sesgo y varianza.
Verifique sus conclusiones aplicando Cramer-Rao al parámetro
$\sigma^2$.
3.
Sea la distribución exponencial, $f(x)=\lambda\exp(-\lambda x)$.
Encuentre para que función $h(\lambda)$ existe un estimador 100%
eficiente. Muestre que Cramer-Rao permite extraer directamente su
sesgo y su varianza.
4.
Compruebe que la distribución de Cauchy descentrada
$f(x)=1/[\pi(1+(x-\mu)^2)]$ no posee un estimador eficiente para
$\mu$. ?'Cuál es la cota mínima para un estimador de $\mu$ no
sesgado, con una muestra de tamaño $n$?
Ayuda: $\int_0^{\infty} t^2/(1+t^2)^3 dt = \pi/16$
***Suficiencia***
1.
Por definición un estadístico $t(\underline{x})$ es suficiente para
un parámetro desconocido $\theta$ si la probabilidad condicional de
obtener dicha muestra, dado que se conoce $t(\underline{x})$:
$P(x_1,\ldots,x_n|t)$, no depende de $\theta$. Suponga una secuencia
de mediciones $\{x_1,\ldots,x_n\}$ donde cada observación $x_i$
proviene de una densidad de probabilidad $f_{X}(x; \theta)$.
1. Convencerse de que el estadístico *vectorial*
$t(\underline{x})=\underline{x}=\{x_1,\ldots,x_n\}$ es un
estadístico suficiente para $\theta$.
2. Si factoriza
$f(\underline{x}; \theta)=G(t|\theta)H(\underline{x}|t)$, donde
$H$ no depende de $\theta$, ?'cuánto valen en este caso $G$ y
$H$?
3. ?'Qué gran problema presenta este estadístico?
2.
Considere una muestra $x_1,\ldots,x_n$ de variables aleatorias
independientes tomadas de una distribución de Poisson,
$P_{k}(\lambda)$
1. Considere el estadístico $t(\underline{x})=\sum x_i$. Mostrar
que la probabilidad condicional de obtener dicha muestra, dado
que se conoce $t$: $P(x_1,\ldots,x_n|t)$, no depende de
$\lambda$. Es decir, $t$ es un estadístico suficiente de
$\lambda$. ?'Es no sesgado? ?'Es consistente?
2. Mostrar que otro estadístico que sea función de $t$: $t'=g(t)$,
es también un estadístico suficiente de $\lambda$.
3. Muestre que $P_k(\lambda)$ satisface el teorema de Darmois para
$\lambda$, e identifique un estadístico suficiente.\
Comentario: el estadístico que se desprende de Darmois es un
estadístico escalar (es decir su dimensión es siempre 1)
independientemente del tamaño de la muestra.
3.
[]{#itm:estimadores_suficientes_normal
label="itm:estimadores_suficientes_normal"} Muestre que la
distribución normal $N(\mu,\sigma)$, satisface la condición de
Darmois para muchos parámetros $$f(x,\underline{\theta})=
\exp\Bigl(
\sum_{j=1}^2B_j(\underline{\theta})C_j(x)+
D(\underline{\theta})+E(x)\Bigr)$$ para el caso de
$\underline{\theta}=\{\mu,\sigma\}$.
1. Encuentre $B_1(\mu,\sigma)$, $B_2(\mu,\sigma)$, $C_1(x)$,
$C_2(x)$, $D(\mu,\sigma)$ y $E(x)$, e identifique un par de
estimadores suficientes para $(\mu,\sigma)$ que surgen de
$C_1(x)$ y $C_2(x)$. ?'Es alguno de estos estimadores no sesgado
para $\mu$ o para $\sigma^2$?
2. Suponga ahora que $\mu$ es conocido pero $\sigma^2$ no lo es.
Redefina las funciones $B_j(\underline{\theta})$, $C_j(x)$,
$D(\underline{\theta})$ y $E(x)$, y demuestre que
$t(\underline{x})=\sum-\frac{1}{2}x_i^2 + \mu x_i$, es un
estadístico suficiente para $\sigma^2$, pero que es sesgado. A
partir de $t$, encuentre una transformación $t'=g(t)$ tal que
$t'$ sea no-sesgado. Muestre que otra posible definición de
$B_j(\underline{\theta})$, $C_j(x)$, $D(\underline{\theta})$ y
$E(x)$ hubiera permitido encontrar directamente $t'$.
Moraleja: los estimadores suficientes pueden no ser estimadores de
los parámetros que queremos, pero una función de ellos sí. Además,
los estadísticos suficientes no son únicos, y se pueden transformar
sin perder su carácter de suficientes.
4.
Considere una muestra $\{x_i\}$ extraída de $U[x;a]$, la
distribución uniforme en \[$a$,$a$+1\], con $a$ real. Muestre que si
bien $\bar{x}$ es un estimador consistente y no sesgado de $E(x)$,
no es un estadístico suficiente. Note que en este caso no puede
aplicar los teoremas de Cramer-Rao o Darmois (?'por qué?). Muestre
asimismo que $\{x_{min}, x_{max}\}$ conforman un estadístico
suficiente (de dimensión 2) para $E(x)$.
***Máxima verosimilitud***
1.
1. Obtenga el estimador de máxima verosimilitud (MV) para:
1. $\hat{\lambda}$ en la distribución exponencial
$f(x;\lambda)=\lambda e^{-\lambda x}$;
2. $\hat{\tau}$ en la distribución exponencial con
parametrización $f(x;\tau)=e^{-x/\tau}/\tau$.
2. Verifique que se satisface la invarianza ante transformación de
parámetros de los estimadores MV.
3. Muestre que $\hat{\lambda}$ es sesgado, mientras que
$\hat{\tau}$ no lo es.\
Ayuda: Notar que la distribución exponencial es un caso
particular de la Gamma y usar las propiedades de esta última.
4. Muestre asimismo que $\hat{\lambda}$ es asintóticamente no
sesgado, como todo estimador MV.
5. Halle las varianzas de $\hat{\lambda}$ y $\hat{\tau}$.
2.
Sea $\{x_i\}$ una muestra tomada de una cierta distribución $f$.
Muestre que el estimador MV para $E(x)$ es el que se detalla a
continuación, y muestre además que es no sesgado:
1. $\bar{x}$, si $f$ es gaussiano;
2. $(x_{max}+x_{min})/2$ si $f$ es uniforme en \[a, b\].;
3. la mediana si $f$ es la doble exponencial
$f(x)=(\lambda/2)\exp(-\lambda|x-\mu|)$.
3.
Encuentre la ecuación que debe satisfacer el estimador MV para el
centro de una Cauchy descentrada $f(x)$ = $1/[\pi(1+(x-\mu)^2)]$.
Note que ésta no puede resolverse en una forma analítica cerrada,
requiriendo una solución numérica. Muestre que este estimador
satisface las condiciones para tender a distribución gaussiana para
muestras grandes, y analice porque no hay contradicción con el hecho
que la suma de variables aleatorias con distribución de Cauchy no
tiende a una gaussiana para $n$ grande.
4.
Se realizan $n$ mediciones $\{x_i\}$ cada una con distribución
$N(\mu,\sigma_i)$ (o sea con distintos errores cada una).
1. Muestre que el estimador MV de $\mu$ es $\hat{\mu}=(\sum
x_i/\sigma_i^2)/(\sum 1/\sigma_i^2)$, el llamado "promedio
pesado" o "promedio ponderado". Interprete físicamente este
resultado y obtenga su varianza. Verifique que si todos los
$\sigma_i$ son iguales, $\hat{\mu}$ corresponde al promedio de
la muestra, como esperado.
2. Muestre que ${\bar{x}}=\sum x_i/n$ es también un estimador no
sesgado de $\mu$, pero de mayor varianza, como correponde a un
estimador que no es de MV.
5.
Encuentre los estimadores de máxima verosimilitud conjuntos para la
esperanza y la varianza de una gaussiana y obtenga su matriz de
covarianza a partir de Cramer-Rao (la matriz de información de
Fisher). ?'Son sesgados estos estimadores? ?'Qué condiciones son
necesarias para calcular la matriz de covarianza a partir de
Cramer-Rao?
Comentario: los estimadores MV $\hat{\mu}$ y $\hat{\sigma}^2$, son
función de las estadísticas suficientes de la distribución
gaussiana: $t_{1}=\sum_i^n x_i$ y $t_{2}=\sum_i^n x_i^2$ (mirar el
ejercicio
[\[itm:estimadores_suficientes_normal\]](#itm:estimadores_suficientes_normal){reference-type="ref"
reference="itm:estimadores_suficientes_normal"}), como se espera
para cualquier estimador MV cuando las estadísticas suficientes
existen. Por lo tanto, $\hat{\mu}$ y $\hat{\sigma}^2$ son también
estadísticas suficientes.
***Cuadrados mínimos***
1.
Considere la aplicación del principio de máxima verosimilitud, al
ajuste de una función $y=f(x,\vec{a})$ sobre los puntos
$\{x_i,y_i\}$.
1. Muestre que si los $y_i$ tienen distribución gaussiana respecto
de $f(x_i,\vec{a})$ se obtiene el método de "cuadrados mínimos".
2. En cambio, si $y_i$ tiene distribución doble exponencial, se
obtiene el método de "módulos mínimos".
3. ?'Como modificaría cuadrados mínimos del punto (a) si en vez de
datos $(x_i,y_i)$ tiene que ajustar\
$y=f(x,\vec{a})$ a un histograma $(x_i,n_i)$ siendo $x_i$ el
centro del bin i-$\'esimo$ y $n_i$ su numero de entradas?
4. ?'Cual es la expresión a minimizar si se resuelve el ítem (c)
por máxima verosimilitud?
Sugerencia: por simplicidad considere que todas las mediciones
en (a) tienen el mismo error $\sigma$ y en (b) tienen el mismo
parámetro $\lambda$
2.
Muestre que al ajustar una recta $y$=$a_1$+$a_2$$x$ a un conjunto de
datos no correlacionados $y_i\pm\sigma$, la expresión general de
regresión lineal $\hat{\underline{\theta}} =
\left(\mathbb{A}^{\rm T}\,\mathbb{V}^{-1}\mathbb{A}\right)^{-1}
\mathbb{A}^{\rm T}\,\mathbb{V}^{-1}\,\underline{\smash{y}}$, se
reduce a la fórmula de "cuadrados mínimos", ecuación 1 del problema
10 de la guía 5.
3.
1. Haga el ajuste de una parábola, $y$=$a_1$+$a_2$$x$+$a_3$$x^2$, a
los datos $\{x_i,y_i\pm\sigma_i\}$:
(-0.6,5$\pm$``{=html}2),
(-0.2,3$\pm$``{=html}1), (0.2,5$\pm$``{=html}1)
y (0.6,8$\pm$``{=html}2).\
(ayuda: el ejercicio está resuelto en la sección 10.2.5 del
Frodesen)
2. Repita el ejercicio suponiendo todos los errores iguales
$\sigma_i=\sigma$, y estime $\sigma$ de los
datos. [$\hat{\sigma}=0.67$]{style="color: 0.9,0,0"}
4.
*Ajuste de datos con errores en ambas variables, "cuadrados mínimos
con errores en $x$ e $y$"*.\
Se realiza un conjunto de $n$ mediciones $\{x_i,y_i\}$ con errores
gaussianos independientes $\sigma_i^x,\sigma_i^y$, para ajustar una
función $y=f(x;a_k)$ que depende de $m