# Guía 4
## Distribuciones multidimensionales –– Covarianza y Correlación
- Sea $X$ una variable aleatoria con densidad de probabilidad simétrica alrededor de cero.
Muestre que $X$ e $Y=X^{2}$ tienen correlación nula a pesar de no ser independientes.
- La suma de dos variables aleatorias con distribución uniforme
da lugar a una variable aleatoria con distribución triangular:
1. Si $X$ e $Y$ son variables independientes con distribución uniforme en $[0,1]$,
halle la distribución conjunta $g(U,V)$ de $U\equiv X+Y$ y $V\equiv X-Y$.
2. Tomando la correspondiente distribución marginal,
muestre que $U$ es una variable aleatoria con distribución triangular:
$$ f_{U}(t) =
\begin{cases}
t & \quad 0 < t < 1 \\
2-t & \quad 1 < t < 2 \\
0 & \quad \text{en otro caso}
\end{cases}
$$
3. Encuentre la distribución de $V$ y determine si $U$ y $V$ son independientes.
4. Calcule la varianza de $U$ via $\int_{0}^{2}(t-1)^{2}f_{U}(t){\rm d}t$.
5. Confirme que se obtiene el mismo resultado usando la propiedad
$$\text{Var}\left(\sum_{i=1}^{N} a_{i}X_{i}\right) =
\sum_{i=1}^{N} a_{i}^{2} \text{Var}(X_{i}) +
2\sum_{i=1}^{N}\sum_{j>i}^{N} a_{i} a_{j} \text{Cov}(X_i,X_j)
$$
- La suma de gaussianas es gaussiana:
1. Probar que si $X$ e $Y$ son variables independientes con distribución normal de parámetros $(\mu_1,\sigma_1)$ y $(\mu_2,\sigma_2)$,
entonces $Z=X+Y$ es una gaussiana de parámetros $\left(\mu_1+\mu_2, \sqrt{\sigma_1^2+\sigma_2^2}\right)$.
2. Ahora bien, si la suma de gaussianas es gaussiana,
¿cómo es que con la suma de dos gaussianas
se consigue aproximar muy bien una distribución de Cauchy,
que claramente no es gaussiana?
*Nota:
este item acompañaba a un ejercicio computacional,
que ya no está en la guía,
que proponía aproximar la distribución de Cauchy $\displaystyle f(x) = \frac{1}{\pi} \frac{1}{1 + x^2}$
como $\displaystyle f(x) \approx p \cdot N(x \,|\, 0, \sigma_1) + (1-p) \cdot N(x \,|\, 0, \sigma_2)$.*
- Muestre que el cociente $Z\equiv X/Y$ de dos variables independientes con distribución normal canónica
tiene distribución de Cauchy, $f_Z(t) = \frac{1}{\pi (1+t^2)}$.
- Sean $X$ e $Y$ dos variables independientes con distribución uniforme en $[0,1]$,
a partir de las cuales se definen
$U=\sqrt{-2a \ln X}\cos(2\pi Y)$ y
$V=\sqrt{-2a \ln X}\sin(2\pi Y)$.
Encuentre la distribución conjunta $g(U,V)$,
identifique qué distribución es,
indique el significado del parámetro $a$
y determine si $U$ y $V$ son independientes.
*Nota: este mapeo de $(X,Y) \mapsto (U,V)$ se llama transformación de Box-Muller.*
- Para cada uno de los cuatro pares de datos de [este dataset](data/anscombe.csv):
1. Calcular la media muestral de $X$ y de $Y$.
2. Calcular la varianza muestral de $X$ y de $Y$.
3. Calcular la correlación entre $X$ e $Y$:
$$\rho(X,Y)
= \frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)}\sqrt{\text{Var}(Y)}}
= \frac{\text{Cov}(X,Y)}{\sigma_X\sigma_Y}$$
4. Graficar cada par de puntos.
*Nota:
estos son cuatro conjuntos de datos
que F.J. Anscombe generó para mostrar que hacer buenos gráficos de los datos
son una parte esencial del análisis de regresión lineal.
F. J, Anscombe, (1973). "Graphs in Statistical Analysis". Am Stat, Vol. 27, No. 1, 17-21*
- Considerando las siguientes propiedades:
- La esperanza $\text{E}[\cdot]$ es un operador lineal,
es decir,
$$\text{E}[aX+bY] = a\,\text{E}[X] + b\,\text{E}[Y]$$
- La covarianza $\text{Cov}(\cdot, \cdot)$ es un operador bilineal,
es decir,
es un operador lineal en ambos argumentos:
$$\text{Cov}(aX+bY, C) = a\,\text{Cov}(X, C) + b\,\text{Cov}(Y, C)$$
$$\text{Cov}(C, aX+bY) = a\,\text{Cov}(C, X) + b\,\text{Cov}(C, Y)$$
- La covarianza es simétrica:
$$\text{Cov}(X, Y) = \text{Cov}(Y, X)$$
- La covarianza de una variable consigo misma es su varianza:
$$\text{Cov}(X, X) = \text{Var}(X)$$
demuestre que
$$
\begin{aligned}
\text{Var}\left(\sum_{i=1}^{N} a_{i}X_{i}\right)
&= \sum_{i=1}^{N}\sum_{j=1}^{N} a_{i} a_{j} \text{Cov}(X_i,X_j)
\\&= \sum_{i=1}^{N} a_{i}^{2} \text{Var}(X_{i}) +
2\sum_{i=1}^{N}\sum_{j>i}^{N} a_{i} a_{j} \text{Cov}(X_i,X_j)
\end{aligned}
$$
(o muestre para la suma de 2 o 3 variables).
- Se tiene una variable aleatoria $X$
con una varianza $\text{Var}(X)$ conocida.
A partir de esta,
se calculan dos variables:
$Y = c X$ y
$Z = (c + 1) X$,
donde $c$ es una constante.
Finalmente,
se calcula $D = Z - Y$.
Se desea calcular la varianza de $D$.
Proceda de dos maneras:
1. Reescriba $D$ en términos de $X$ y calcule la varianza.
2. Calcule la varianza de $Y$ y $Z$ y, a partir de estas, la varianza de $D$.
¿Qué sucede si ignora la covarianza entre $Y$ y $Z$?
3. ¿Y si $D = Z + Y$?