# Guía 4 ## Distribuciones multidimensionales –– Covarianza y Correlación - Sea $X$ una variable aleatoria con densidad de probabilidad simétrica alrededor de cero. Muestre que $X$ e $Y=X^{2}$ tienen correlación nula a pesar de no ser independientes. - La suma de dos variables aleatorias con distribución uniforme da lugar a una variable aleatoria con distribución triangular: 1. Si $X$ e $Y$ son variables independientes con distribución uniforme en $[0,1]$, halle la distribución conjunta $g(U,V)$ de $U\equiv X+Y$ y $V\equiv X-Y$. 2. Tomando la correspondiente distribución marginal, muestre que $U$ es una variable aleatoria con distribución triangular: $$ f_{U}(t) = \begin{cases} t & \quad 0 < t < 1 \\ 2-t & \quad 1 < t < 2 \\ 0 & \quad \text{en otro caso} \end{cases} $$ 3. Encuentre la distribución de $V$ y determine si $U$ y $V$ son independientes. 4. Calcule la varianza de $U$ via $\int_{0}^{2}(t-1)^{2}f_{U}(t){\rm d}t$. 5. Confirme que se obtiene el mismo resultado usando la propiedad $$\text{Var}\left(\sum_{i=1}^{N} a_{i}X_{i}\right) = \sum_{i=1}^{N} a_{i}^{2} \text{Var}(X_{i}) + 2\sum_{i=1}^{N}\sum_{j>i}^{N} a_{i} a_{j} \text{Cov}(X_i,X_j) $$ - La suma de gaussianas es gaussiana: 1. Probar que si $X$ e $Y$ son variables independientes con distribución normal de parámetros $(\mu_1,\sigma_1)$ y $(\mu_2,\sigma_2)$, entonces $Z=X+Y$ es una gaussiana de parámetros $\left(\mu_1+\mu_2, \sqrt{\sigma_1^2+\sigma_2^2}\right)$. 2. Ahora bien, si la suma de gaussianas es gaussiana, ¿cómo es que con la suma de dos gaussianas se consigue aproximar muy bien una distribución de Cauchy, que claramente no es gaussiana? *Nota: este item acompañaba a un ejercicio computacional, que ya no está en la guía, que proponía aproximar la distribución de Cauchy $\displaystyle f(x) = \frac{1}{\pi} \frac{1}{1 + x^2}$ como $\displaystyle f(x) \approx p \cdot N(x \,|\, 0, \sigma_1) + (1-p) \cdot N(x \,|\, 0, \sigma_2)$.* - Muestre que el cociente $Z\equiv X/Y$ de dos variables independientes con distribución normal canónica tiene distribución de Cauchy, $f_Z(t) = \frac{1}{\pi (1+t^2)}$. - Sean $X$ e $Y$ dos variables independientes con distribución uniforme en $[0,1]$, a partir de las cuales se definen $U=\sqrt{-2a \ln X}\cos(2\pi Y)$ y $V=\sqrt{-2a \ln X}\sin(2\pi Y)$. Encuentre la distribución conjunta $g(U,V)$, identifique qué distribución es, indique el significado del parámetro $a$ y determine si $U$ y $V$ son independientes. *Nota: este mapeo de $(X,Y) \mapsto (U,V)$ se llama transformación de Box-Muller.* - Para cada uno de los cuatro pares de datos de [este dataset](data/anscombe.csv): 1. Calcular la media muestral de $X$ y de $Y$. 2. Calcular la varianza muestral de $X$ y de $Y$. 3. Calcular la correlación entre $X$ e $Y$: $$\rho(X,Y) = \frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)}\sqrt{\text{Var}(Y)}} = \frac{\text{Cov}(X,Y)}{\sigma_X\sigma_Y}$$ 4. Graficar cada par de puntos. *Nota: estos son cuatro conjuntos de datos que F.J. Anscombe generó para mostrar que hacer buenos gráficos de los datos son una parte esencial del análisis de regresión lineal. F. J, Anscombe, (1973). "Graphs in Statistical Analysis". Am Stat, Vol. 27, No. 1, 17-21* - Considerando las siguientes propiedades: - La esperanza $\text{E}[\cdot]$ es un operador lineal, es decir, $$\text{E}[aX+bY] = a\,\text{E}[X] + b\,\text{E}[Y]$$ - La covarianza $\text{Cov}(\cdot, \cdot)$ es un operador bilineal, es decir, es un operador lineal en ambos argumentos: $$\text{Cov}(aX+bY, C) = a\,\text{Cov}(X, C) + b\,\text{Cov}(Y, C)$$ $$\text{Cov}(C, aX+bY) = a\,\text{Cov}(C, X) + b\,\text{Cov}(C, Y)$$ - La covarianza es simétrica: $$\text{Cov}(X, Y) = \text{Cov}(Y, X)$$ - La covarianza de una variable consigo misma es su varianza: $$\text{Cov}(X, X) = \text{Var}(X)$$ demuestre que $$ \begin{aligned} \text{Var}\left(\sum_{i=1}^{N} a_{i}X_{i}\right) &= \sum_{i=1}^{N}\sum_{j=1}^{N} a_{i} a_{j} \text{Cov}(X_i,X_j) \\&= \sum_{i=1}^{N} a_{i}^{2} \text{Var}(X_{i}) + 2\sum_{i=1}^{N}\sum_{j>i}^{N} a_{i} a_{j} \text{Cov}(X_i,X_j) \end{aligned} $$ (o muestre para la suma de 2 o 3 variables). - Se tiene una variable aleatoria $X$ con una varianza $\text{Var}(X)$ conocida. A partir de esta, se calculan dos variables: $Y = c X$ y $Z = (c + 1) X$, donde $c$ es una constante. Finalmente, se calcula $D = Z - Y$. Se desea calcular la varianza de $D$. Proceda de dos maneras: 1. Reescriba $D$ en términos de $X$ y calcule la varianza. 2. Calcule la varianza de $Y$ y $Z$ y, a partir de estas, la varianza de $D$. ¿Qué sucede si ignora la covarianza entre $Y$ y $Z$? 3. ¿Y si $D = Z + Y$? - En laboratorio 1, les dicen que midan el periodo $\tau$ de un péndulo lo más preciso posible. Para ello, cuentan con un programa que guarda el tiempo actual $t$ cada vez que aprietan un botón. De un experimento previo, saben que tienen una precisión $\sigma$ al medir estos tiempos (es decir, $\text{Var}(t) = \sigma^2$). Se ponen de acuerdo que van a apretar el botón (medir los tiempos) cuando el péndulo pasa por su punto más bajo y en la misma dirección. En su grupo, proponen tres maneras de medir y calcular el periodo. Como no se ponen de acuerdo en cuál es mejor (la más precisa), van a calcular la varianza en cada caso. Para ello, definen: $t_i$ como el tiempo de la $i$-ésima pasada sin frenar al péndulo entre mediciones, $\Delta t_i = t_i - t_{i-1}$, como el tiempo entre dos de estas mediciones consecutivas. 1. El primer método es medir $n$ veces $\Delta t_1$, frenando el péndulo entre repeticiones, y calcular el periodo $\tau_1$ como el promedio de estos. ¿Cuál es la covarianza entre dos $\Delta t_1$ de dos repeticiones distintas? ¿Cuál es la varianza de $\tau_1$? 2. El segundo método es calcular $\displaystyle \tau_n = \frac{t_n - t_0}{n}$, es decir, dejando pasar $n$ oscilaciones sin medir (ni frenarlo). ¿Cuál es la varianza de $\tau_n$? 3. El tercer método es medir $n$ pasadas consecutivas, $\{t_0, t_1, t_2, \ldots, t_n\}$ y calcular el periodo como $\tau_{\Delta} = \frac{1}{n} \sum_{i=1}^n \Delta t_i$. Este combina ideas de los anteriores (pasadas consecutivas y promedio). ¿Cuál es la covarianza entre dos $\Delta t_i$ consecutivos, $\text{Cov}(\Delta t_i, \Delta t_{i+1})$? ¿Cuál es la varianza $\tau_{\Delta}$? *Ayuda: reescriba en términos de las variables independientes.* ¿Cambia algo cuando se promedia en el primer método y cuando se promedia en este?