# Guía 7
## Estimación puntual de parámetros
***Consistencia y Sesgo***
- Considere el estadístico $S^2=\sum_i^n (x_i - \mu)^2/n$,
donde los $x_i$ son variables aleatorias independientes e idénticamente distribuidas
y la esperanza $E(x_i)=\mu$ es conocida.
1. ¿Puede $S^2$ ser considerado un *estadístico*
dado que no solo es función de las observaciones
sino también de los parámetros $\mu$ y $n$?
2. Mostrar que es un estimador no sesgado de la varianza de $X$.
3. Encuentre el error de $S^2$ cuando los $x_i$ son gaussianos.
4. ¿Cuánto vale la varianza de $S^2$ al usar la fórmula de propagación de errores?
¿Porqué falla?
$\text{Var}(S^2) \approx 0$
- Muestre que $s^2 = \sum_i^n (x_i - \bar{x})^2/n$ es un estimador sesgado de $\text{Var}(X)$,
cuyo bias vale $-\sigma^2/n$,
mientras que $\tilde{s}^2=\sum_i^n (x_i - \bar{x})^2 / (n-1)$ es no sesgado.
- Usando la desigualdad de Tshebycheff,
muestre que $S^2=\sum_i^n (x_i - \mu)^2 / n$ es un estimador consistente de la varianza,
cuando la esperanza $\mu$ es conocida,
para el caso que los $\{x_i\}$ tienen distribución normal.
-
Establezca una condición suficiente para que
$S^2=\sum_i^n (x_i - \mu)^2/n$ sea un estimador consistente de la varianza,
cuando los $\{x_i\}$ tienen distribución arbitraria.
Intente no hacer más cuentas que en el ejercicio anterior.
-
En general, que $t$ sea un estimador no sesgado de $\theta$,
no implica que $t^2$ sea no sesgado para $\theta^2$.
1. Convénzase intuitivamente que ésto es cierto, sin hacer cuentas,
para el caso que $\theta=E(x)$ y $t=\bar{x}$,
con $f_X(x)$ simétrica alrededor de $x=0$.
2. Sea $k$ una variable aleatoria con distribución binomial
$B_k(n,p)$. Muestre que $t=k/n$ es un estimador no sesgado de
$p$, mientras que $t'=(k/n)^2$ no lo es para $p^2$. Halle el
bias de $(k/n)^2$, y a partir de éste encuentre un estimador no
sesgado de $p^2$.
***Eficiencia y Mínima varianza***
- Escriba la función verosimilitud para un experimento binomial
$B_k(n,p)$, y aplicando la relación de Cramer-Rao muestre que
$t=k/n$ es un estimador 100% eficiente de $p$. ¿Cuánto vale $V(t)$?
- Muestre que la aplicación de la desigualdad de Cramer-Rao al
parámetro $\sigma$ de la distribución normal $N(\mu,\sigma)$
establece que existe una única función de $\sigma$ con estimador
100% eficiente, y permite encontrar su estimador, sesgo y varianza.
Verifique sus conclusiones aplicando Cramer-Rao al parámetro
$\sigma^2$.
- Sea la distribución exponencial, $f(x)=\lambda\exp(-\lambda x)$.
Encuentre para que función $h(\lambda)$ existe un estimador 100%
eficiente. Muestre que Cramer-Rao permite extraer directamente su
sesgo y su varianza.
- Compruebe que la distribución de Cauchy descentrada
$f(x)=1/[\pi(1+(x-\mu)^2)]$ no posee un estimador eficiente para
$\mu$. ¿Cuál es la cota mínima para un estimador de $\mu$ no
sesgado, con una muestra de tamaño $n$?
Ayuda: $\int_0^{\infty} t^2/(1+t^2)^3 dt = \pi/16$
***Suficiencia***
-
Por definición un estadístico $t(\underline{x})$ es suficiente para
un parámetro desconocido $\theta$ si la probabilidad condicional de
obtener dicha muestra, dado que se conoce $t(\underline{x})$:
$P(x_1,\ldots,x_n|t)$, no depende de $\theta$. Suponga una secuencia
de mediciones $\{x_1,\ldots,x_n\}$ donde cada observación $x_i$
proviene de una densidad de probabilidad $f_{X}(x; \theta)$.
1. Convencerse de que el estadístico *vectorial*
$t(\underline{x})=\underline{x}=\{x_1,\ldots,x_n\}$ es un
estadístico suficiente para $\theta$.
2. Si factoriza
$f(\underline{x}; \theta)=G(t|\theta)H(\underline{x}|t)$, donde
$H$ no depende de $\theta$, ¿cuánto valen en este caso $G$ y
$H$?
3. ¿Qué gran problema presenta este estadístico?
-
Considere una muestra $x_1,\ldots,x_n$ de variables aleatorias
independientes tomadas de una distribución de Poisson,
$P_{k}(\lambda)$
1. Considere el estadístico $t(\underline{x})=\sum x_i$. Mostrar
que la probabilidad condicional de obtener dicha muestra, dado
que se conoce $t$: $P(x_1,\ldots,x_n|t)$, no depende de
$\lambda$. Es decir, $t$ es un estadístico suficiente de
$\lambda$. ¿Es no sesgado? ¿Es consistente?
2. Mostrar que otro estadístico que sea función de $t$: $t'=g(t)$,
es también un estadístico suficiente de $\lambda$.
3. Muestre que $P_k(\lambda)$ satisface el teorema de Darmois para
$\lambda$, e identifique un estadístico suficiente.\
Comentario: el estadístico que se desprende de Darmois es un
estadístico escalar (es decir su dimensión es siempre 1)
independientemente del tamaño de la muestra.
- Muestre que la
distribución normal $N(\mu,\sigma)$, satisface la condición de
Darmois para muchos parámetros $$f(x,\underline{\theta})=
\exp\Bigl(
\sum_{j=1}^2B_j(\underline{\theta})C_j(x)+
D(\underline{\theta})+E(x)\Bigr)$$ para el caso de
$\underline{\theta}=\{\mu,\sigma\}$.
1. Encuentre $B_1(\mu,\sigma)$, $B_2(\mu,\sigma)$, $C_1(x)$,
$C_2(x)$, $D(\mu,\sigma)$ y $E(x)$, e identifique un par de
estimadores suficientes para $(\mu,\sigma)$ que surgen de
$C_1(x)$ y $C_2(x)$. ¿Es alguno de estos estimadores no sesgado
para $\mu$ o para $\sigma^2$?
2. Suponga ahora que $\mu$ es conocido pero $\sigma^2$ no lo es.
Redefina las funciones $B_j(\underline{\theta})$, $C_j(x)$,
$D(\underline{\theta})$ y $E(x)$, y demuestre que
$t(\underline{x})=\sum-\frac{1}{2}x_i^2 + \mu x_i$, es un
estadístico suficiente para $\sigma^2$, pero que es sesgado. A
partir de $t$, encuentre una transformación $t'=g(t)$ tal que
$t'$ sea no-sesgado. Muestre que otra posible definición de
$B_j(\underline{\theta})$, $C_j(x)$, $D(\underline{\theta})$ y
$E(x)$ hubiera permitido encontrar directamente $t'$.
*Moraleja: los estimadores suficientes pueden no ser estimadores de
los parámetros que queremos, pero una función de ellos sí. Además,
los estadísticos suficientes no son únicos, y se pueden transformar
sin perder su carácter de suficientes.*
- Considere una muestra $\{x_i\}$ extraída de $U[x;a]$,
la distribución uniforme en $[a,a+1]$, con $a$ real.
Muestre que si bien $\bar{x}$ es un estimador consistente y no sesgado de $E(x)$,
no es un estadístico suficiente.
Note que en este caso no puede aplicar los teoremas de Cramer-Rao o Darmois (¿por qué?).
Muestre asimismo que
$\{x_{min}, x_{max}\}$ conforman un estadístico suficiente (de dimensión 2) para $E(x)$.
***Máxima verosimilitud***
- Obtenga el estimador de máxima verosimilitud (MV) para:
1. $\hat{\lambda}$ en la distribución exponencial
$f(x;\lambda)=\lambda e^{-\lambda x}$;
2. $\hat{\tau}$ en la distribución exponencial con
parametrización $f(x;\tau)=e^{-x/\tau}/\tau$.
2. Verifique que se satisface la invarianza ante transformación de
parámetros de los estimadores MV.
3. Muestre que $\hat{\lambda}$ es sesgado, mientras que
$\hat{\tau}$ no lo es.\
Ayuda: Notar que la distribución exponencial es un caso
particular de la Gamma y usar las propiedades de esta última.
4. Muestre asimismo que $\hat{\lambda}$ es asintóticamente no
sesgado, como todo estimador MV.
5. Halle las varianzas de $\hat{\lambda}$ y $\hat{\tau}$.
- Sea $\{x_i\}$ una muestra tomada de una cierta distribución $f$.
Muestre que el estimador MV para $E(x)$ es el que se detalla a
continuación, y muestre además que es no sesgado:
1. $\bar{x}$, si $f$ es gaussiano;
2. $(x_{max}+x_{min})/2$ si $f$ es uniforme en $[a, b]$;
3. la mediana si $f$ es la doble exponencial
$f(x)=(\lambda/2)\exp(-\lambda|x-\mu|)$.
- Encuentre la ecuación que debe satisfacer el estimador MV para el
centro de una Cauchy descentrada $f(x) = 1/[\pi(1+(x-\mu)^2)]$.
Note que ésta no puede resolverse en una forma analítica cerrada,
requiriendo una solución numérica. Muestre que este estimador
satisface las condiciones para tender a distribución gaussiana para
muestras grandes, y analice porque no hay contradicción con el hecho
que la suma de variables aleatorias con distribución de Cauchy no
tiende a una gaussiana para $n$ grande.
- Se realizan $n$ mediciones $\{x_i\}$ cada una con distribución
$N(\mu,\sigma_i)$ (o sea con distintos errores cada una).
1. Muestre que el estimador MV de $\mu$ es $\hat{\mu}=(\sum
x_i/\sigma_i^2)/(\sum 1/\sigma_i^2)$, el llamado "promedio
pesado" o "promedio ponderado". Interprete físicamente este
resultado y obtenga su varianza. Verifique que si todos los
$\sigma_i$ son iguales, $\hat{\mu}$ corresponde al promedio de
la muestra, como esperado.
2. Muestre que ${\bar{x}}=\sum x_i/n$ es también un estimador no
sesgado de $\mu$, pero de mayor varianza, como correponde a un
estimador que no es de MV.
- Encuentre los estimadores de máxima verosimilitud conjuntos para la
esperanza y la varianza de una gaussiana y obtenga su matriz de
covarianza a partir de Cramer-Rao (la matriz de información de
Fisher). ¿Son sesgados estos estimadores? ¿Qué condiciones son
necesarias para calcular la matriz de covarianza a partir de
Cramer-Rao?
Comentario: los estimadores MV $\hat{\mu}$ y $\hat{\sigma}^2$, son
función de las estadísticas suficientes de la distribución
gaussiana: $t_{1}=\sum_i^n x_i$ y $t_{2}=\sum_i^n x_i^2$ (mirar el
ejercicio 12, como se espera
para cualquier estimador MV cuando las estadísticas suficientes
existen. Por lo tanto, $\hat{\mu}$ y $\hat{\sigma}^2$ son también
estadísticas suficientes.
***Cuadrados mínimos***
- Considere la aplicación del principio de máxima verosimilitud, al
ajuste de una función $y=f(x,\vec{a})$ sobre los puntos
$\{x_i,y_i\}$.
1. Muestre que si los $y_i$ tienen distribución gaussiana respecto
de $f(x_i,\vec{a})$ se obtiene el método de "cuadrados mínimos".
2. En cambio, si $y_i$ tiene distribución doble exponencial, se
obtiene el método de "módulos mínimos".
3. ¿Como modificaría cuadrados mínimos del punto (a) si en vez de
datos $(x_i,y_i)$ tiene que ajustar\
$y=f(x,\vec{a})$ a un histograma $(x_i,n_i)$ siendo $x_i$ el
centro del bin i-ésimo y $n_i$ su numero de entradas?
4. ¿Cual es la expresión a minimizar si se resuelve el ítem (c)
por máxima verosimilitud?
*Sugerencia: por simplicidad considere que todas las mediciones
en (a) tienen el mismo error $\sigma$ y en (b) tienen el mismo
parámetro $\lambda$*
- Muestre que al ajustar una recta $y = a_1 + a_2 x$ a un conjunto de
datos no correlacionados $y_i\pm\sigma$, la expresión general de
regresión lineal $\hat{\underline{\theta}} =
\left(\mathbb{A}^{\rm T}\,\mathbb{V}^{-1}\mathbb{A}\right)^{-1}
\mathbb{A}^{\rm T}\,\mathbb{V}^{-1}\,\underline{\smash{y}}$, se
reduce a la fórmula de "cuadrados mínimos", ecuación 1 del problema
10 de la guía 5.
-
1. Haga el ajuste de una parábola, $y = a_1 + a_2 x + a_3 x^2$,
a los datos $\{(x_i, y_i \pm \sigma_i)\}$:
$\{(-0.6, 5 \pm 2), (-0.2, 3 \pm 1), (0.2, 5 \pm 1), (0.6, 8 \pm 2) \}$.
(ayuda: el ejercicio está resuelto en la sección 10.2.5 del Frodesen)
2. Repita el ejercicio suponiendo todos los errores iguales $\sigma_i=\sigma$,
y estime $\sigma$ de los datos.
$\hat{\sigma}=0.67$
- **Ajuste de datos con errores en ambas variables,
"cuadrados mínimos con errores en $x$ e $y$"**
Se realiza un conjunto de $n$ mediciones $\{x_i,y_i\}$
con errores gaussianos independientes $\sigma_i^x,\sigma_i^y$,
para ajustar una función $y=f(x; a_k)$
que depende de $m < n$ parámetros $a_k$ con $k=[1,\dots,m]$.
1. Muestre que $\hat{a}_k$ y $\hat{x}_i^o$, los estimadores de
máxima verosimilitud de $a_k$ y $x_i^o \equiv E(x_i)$, son
aquellos que minimizan la función
$$S(a_k,x_i^o)=\sum_{i=1}^n\left[\left(\frac{x_i-x_i^o}{\sigma_i^x}\right)^2+ \left(\frac{y_i-f(x_i^o)}{\sigma_i^y}\right)^2\,\right]$$
Este es el denominado *criterio de Deming*. ¿Por qué
consideramos estimadores $E(x_i)$ y no los de $E(y_i)$?
2. Compruebe que bajo la aproximación
$f(x_i)=f(x_i^o)+(x_i\!-\!x_i^o)\,\partial\!f\!/\partial x|_i$,
en un entorno alrededor de cada $x_i^o$, el criterio de Deming
se reduce al método de varianza efectiva, en que se minimiza
$$S=\sum_{i=1}^n\left(\frac{y_i-f(x_i)}{\sigma_i}\right)^2\;\;\;\;\;{\rm con}
\quad
(\sigma_i)^2=(\sigma_i^y)^2+\left(\sigma_i^x \left.\frac{\partial f}{\partial x}\right|_{x_i^o}\right)^2$$
así llamado pues es formalmente similar al caso de cuadrados
mínimos ordinarios, pero remplazando $\sigma_i^y$ por
$\sigma_i$, un error efectivo en $y$ más grande. Además del caso
lineal $f(x)=a_1+a_2\,x$, ¿Cuándo será válida esta
aproximación? Analice porqué éste es un problema no lineal que
requiere solución iterativa aún cuando la función a ajustar sea
una recta.