Ejercicio 2 del primer parcial (2017)

Justo cuando un artista plástico callejero terminaba su obra, que había realizado con tizas de colores sobre una vereda de pequeñas baldosas cuadradas, comenzó a garuar. Por suerte, tan solo un minuto después la lluvia se detuvo. El artista notó que exactamente la mitad de las baldosas intervenidas por su obra habían recibido al menos una gota de lluvia y entonces se hizo algunas preguntas que seguramente podrás ayudarle a responder.

a) ¿Cuál es la probabilidad de que una baldosa haya recibido más de una gota? ¿Y más de n?

b) ¿Cuál es la probabilidad de elegir 10 baldosas al azar y que más de 8 tengan al menos una gota?

c) ¿Cuántas baldosas se deberán revisar en promedio hasta encontrar tres que hayan recibido más de dos gotas?

Resolución

a) Nos preguntan la probabilidad de recibir más de 1 gota y más de n. Entonces, la variable aleatoria que nos interesa es:

$$X: \text{cantidad de gotas que recibe una baldosa}$$

Podemos pensar que $X$ tiene una distribución de Poisson con parámetro $\mu$, ya que la cantidad de gotas que llueve $N$ es alta, pero la probabilidad $p$ de que le caiga una gota a una (dada) baldosa es baja. Entonces, podemos pensar que $p \rightarrow 0$ y $N \rightarrow \infty$ tal que $Np \rightarrow \mu$.

$$P(\text{recibir k gotas}) = P(X = k) = \frac{\mu^k}{k!} e^{-\mu}$$

Para calcular este parámetro, usamos la información de que la mitad de las baldosas habian recibido una gota de lluvia. Entonces:

$$P(\text{recibir más de una gota}) = P(X \geq 1) = \frac{1}{2}$$

Pero $P(X \geq 1) = 1 - P(X = 0) = 1 - \frac{\mu^0}{0!} e^{-\mu} = 1 - e^{-\mu}$.

Despejando, se llega a:

$$\mu = \ln(2)$$

Finalmente, podemos responder las preguntas del inciso a):

La probabilidad de recibir más de una gota es: $$P(X > 1) = 1 - P(X \leq 1) = 1 - [P(X=0) + P(X=1)] = 1 - (1 + \mu) \, e^{-\mu} = \frac{1 - \ln(2)}{2}$$

y de más de n es: $$P(X > n) = 1 - P(X \leq n) = 1 - \sum_{k=0}^n P(X=k)$$

In [1]:
import numpy as np
from scipy import stats as st

mu = np.log(2)

a1 = 1 - st.poisson.pmf(0, mu=mu) - st.poisson.pmf(1, mu=mu)

print('La probabilidad de recibir más de una gota es:', a1)
La probabilidad de recibir más de una gota es: 0.15342640972

b) Que una baldosa tenga más de una gota es lo mismo que decir que está mojada y, por el enunciado, $P(\text{mojada}) = \frac{1}{2}$.

Elegir una baldosa al azar y ver si está mojada (éxito) o no (fracaso) es un experimento de Bernoulli (es como tirar una moneda y ver si sale cara o ceca). La cantidad de éxitos $Y$ de una cantidad fija ($n=10$) de experimentos de Bernoulli con la misma probabilidad ($p=\frac{1}{2}$) tiene distribución binomial. Como las baldosas son pequeñas, asumimos que la cantidad de baldosas es muy grande y, por lo tanto, sacar una baldosa no nos cambia la probabilidad de que una baldosa esté mojada o no. Sino tendríamos que usar la hipergeométrica (pero no nos dicen la cantidad total de baldosas).

Entones, la probabilidad de que más de 8 baldosas esten mojadas, dado que elegí 10 al azar, es:

$$P(\text{más de 8 mojadas | elegí 10 baldosas al azar, prob. mojada es 0.5}) = \\ P(Y>8 \,|\, n,p) = \sum_{k=9}^{10} B(k \,|\, n=10, p=0.5) = \\ = {10 \choose 9} \, 0.5^9 \, 0.5^{10-9} + {10 \choose 10} \, 0.5^{10} \, 0.5^{10-10} = \frac{11}{2^{10}}$$
In [2]:
n, p = 10, 0.5

b = st.binom.pmf(9, n=n, p=p) + st.binom.pmf(10, n=n, p=p)

print('La probabilidad de que más de 8 baldosas esten mojadas es:', b)
La probabilidad de que más de 8 baldosas esten mojadas es: 0.0107421875

c) Ahora nos preguntan cuantas baldosas se deberán revisar en promedio hasta encontrar 3 que hayan recibido más de 2 gotas. Otra vez, cada baldosa que sacamos es un experimento de Bernoulli, donde el éxito es encontrar una baldosa con más de 2 gotas y el fracaso es encontrar una con hasta 2 gotas. Pero a diferencia del caso anterior, la cantidad de éxitos está fija, no la cantidad de intentos. Por lo tanto, la cantidad de baldosas $Z$ que se revisan hasta encontrar 3 que cumplen la condición es una distribución binomial negativa.

$$P(Z=n) = BN(n \,|\, k,p)$$

Como nos pregunta en promedio, tenemos que calcular la esperanza de la binomial negativa.

$$E[Z] = \frac{k}{p}$$

donde $$k=3$$ $$p = P(X>2) = 1-P(X \leq 2) = 1 - \left( 1+\mu+\frac{\mu^2}{2} \right) \, e^{-\mu}$$

In [3]:
p = 1
for k in range(3): # range(3) va de 0 a 2
    p -= st.poisson.pmf(k, mu=mu)
    
print('La probabilidad de que una baldosa tenga más de dos gotas es:', p)
print('En promedio se deberán revisar', 3/p, 'baldosas')
La probabilidad de que una baldosa tenga más de dos gotas es: 0.0333131562405
En promedio se deberán revisar 90.054511147 baldosas

Criterio de corrección

Cada ejercicio se podía realizar por separado, y lo principal era darse cuenta que distribución hay que usar en cada caso: Poisson, Binomial y Binomial Negativa, respectivamente. Con realizarse por separado, nos referimos a que no vamos a tener en cuenta si calcularon mal la probabilidad que hay que usar en el inciso c) porque estimaron mal el $\mu$ del inciso a). Parte de la nota también era justificar porque se utilizaba cada distribución y (obviamente) plantear la cuenta correcta a resolver.

Confusiones más comunes

1. $N \rightarrow \infty$, pero ¿qué N?

La primer confusión que tuvieron muchos fue justificar que la cantidad de gotas que recibe una dada baldosa es poissoniana porque la probabilidad $p$ de que caiga una gota es baja, pero la cantidad de baldosas $N$ es muy grande.

Creo que escribir la variable aleatoria que se está considerando ($X: \text{cantidad de gotas que recibe una baldosa}$) ayuda a pensar un poco la justificación. Noten que si la nube solo tuviese una gota, no importa cuantas baldosas haya, nunca va a caer más de 1 gota en una baldosa, y no tiene sentido pensar esa variable como Poisson, que asigna probabilidades no nulas de $k=0$ hasta $\infty$ gotas. Ahora, si la nube tiene (y tira) $N$ gotas, la cantidad de gotas que caen en mi baldosa es una variable binomial: cada gota cae en la baldosa (con probabilidad $p$) o cae afuera.

Un poco más allá

Si quieren ir más profundo, hay dos posibilidades por como está planteado el enunciado:

1) Como las baldosas son muy pequeñas, la probabilidad de que una gota caiga en mi baldosa es muy baja ($p \ll 1$), pero como llueven muchas gotas ($n \gg 1$), $np \rightarrow \mu$.

Recuerden que el límite es una aproximación: para que $p \rightarrow 0$, el area de la baldosa tendría que tender a 0. Y la cantidad de gotas en una nube puede ser muy grande, pero nunca infinita. ¿A partir de cuando tiene sentido está aproximación?

In [4]:
from matplotlib import pyplot as plt
%matplotlib inline

fig, ax = plt.subplots(ncols=3, figsize=(16,4))

n, p = 10000, 0.01
mu = n*p
std = np.sqrt(mu)
x = np.arange(-4*int(std), 4*int(std)) + int(mu)
ax[0].plot(x, st.norm.pdf(x, loc=mu, scale=std), '-', lw=4)
ax[0].plot(x, st.poisson.pmf(x, mu=mu), '--', lw=4)
ax[0].plot(x, st.binom.pmf(x, n=n, p=p), '--', lw=4)
ax[0].set_title('$n={n:.0f}$ \n $p={p}$ \n $\mu={mu:1.0f}$ \n $\sigma={std:.2f}$'.format(n=n, p=p, mu=mu, std=std))

n, p = 10000, 0.2
mu = n*p
std = np.sqrt(mu)
x = np.arange(-4*int(std), 4*int(std)) + int(mu)
ax[1].plot(x, st.norm.pdf(x, loc=mu, scale=std), '-', lw=4)
ax[1].plot(x, st.poisson.pmf(x, mu=mu), '--', lw=4)
ax[1].plot(x, st.binom.pmf(x, n=n, p=p), '--', lw=4)
ax[1].set_title('$n={n:.0f}$ \n $p={p}$ \n $\mu={mu:1.0f}$ \n $\sigma={std:.2f}$'.format(n=n, p=p, mu=mu, std=std))

n, p = 10, 0.5
mu = n*p
std = np.sqrt(mu)
x1 = np.arange(0, n+1)
x2 = np.arange(0, 2*n+1)
x3 = np.linspace(mu-4*std, 2*n, 1000)

ax[2].plot(x3, st.norm.pdf(x3, loc=mu, scale=std), '-', lw=4)
ax[2].plot(x2, st.poisson.pmf(x2, mu=mu), '--o', lw=2)
ax[2].plot(x1, st.binom.pmf(x1, n=n, p=p), '--o', lw=2)
ax[2].set_title('$n={n:.0f}$ \n $p={p}$ \n $\mu={mu:1.0f}$ \n $\sigma={std:.2f}$'.format(n=n, p=p, mu=mu, std=std))

ax[2].legend(['Normal', 'Poisson', 'Binomial'])
Out[4]:
<matplotlib.legend.Legend at 0x7f2ad31fea58>

En los 3 gráficos de arriba se encuentran gráficadas las distribuciones binomial, poisson y normal (o gaussiana), para distintos parámetros.

En la primer figura (izquierda), cuando $n$ es grande y $p$ es chico, la binomial y la poisson se parecen. También, ambas se aproximan a una normal con valor medio $\mu$ y desviación estandar $\sqrt{\mu}$. La diferencia está en que la binomial y poisson están definidas para los enteros (es discreta), mientras que la normal es continua.

En la segunda figura (medio), al aumentar $p$ la binomial y la poisson difieren, por más que $N$ sea igual de grande. En particular, para $p \lesssim 1$, la densidad de la binomial se concentra cerca de $N$, donde se corta (porque no puede ser mayor a $N$), mientras que la poisson sigue hasta infinito.

En la tercer figura, para $N$ pequeños, vemos que todas difieren entre sí. Acá se nota como la binomial termina en $N$ mientras que la poisson sigue (hasta infinito). También se puede ver el hecho de que sean discretas, mientras que la normal es continua y, además, se extiende a los negativos.

2) Para la otra posibilidad no hace falta pensar que las baldosas son pequeñas, sino utilizar el dato de que empezó a garuar pero se detuvo al minuto. Entonces uno puede pensar en una nube con muchas gotas ($N \gg 1$), pero donde cada gota tiene una probabilidad muy baja de caer ($p \ll 1$). Por lo tanto, las gotas que caen de la nube tienen una distribución de poisson.

Pero, ¿no es que queriamos saber la cantidad de gotas que caen en una baldosa? Se puede pensar a la baldosa como un detector binomial donde la probabilidad $p$ de detectar es que la gota caiga en dicha baldosa o no (es decir, caiga afuera). Y como la composición de una binomial con una poisson es otra poisson donde $\mu \mapsto p\mu = \mu '$, la variable cantidad de gotas que caen en una baldosa es poisson.

Mucho más allá

Esta última interpretación tiene una pequeña ventaja:

Si tienen $N$ gotas y una baldosa, la probabilidad de que caigan $k$ gotas en la baldosa es una binomial $B(k|n,p)$. En realidad, es como tener 2 baldosas: la baldosa, que es la que nos interesa, y el resto de la vereda/ciudad/universo, la no-baldosa.

Ahora, cuando se tienen $N$ gotas y $m$ baldosas, la probabilidad de que caigan $k$ gotas en la baldosa $j$-ésima es una multinomial, que es la generalización de la binomial. Las variables multinomiales no son independientes, ya que si una gota cae en la baldosa $j$-ésima, es porque NO cayo en las otras $m-1$ baldosas.

Sin embargo, si tenemos $m$ variables $\{ X_1, ..., X_m \}$ con distribución multinomial ($X_j$ es la cantidad de gotas que caen en la baldosa $j$) y la cantidad de gotas $N$ a distribuir entre las $m$ baldosas es a su vez una variable aleatoria poissoniana, se puede mostrar que todas las $X_j$ se convierten en variables poissonianas independientes. Ver Sección 4.4.4 del Frodensen (pág. 86), explicado para el error de un histograma.

2. Estimando el $\mu$

Otra de los errores fue al estimar el parámetro de la poissoniana. En la confusión entre gotas y baldosas, mucha gente puso $\mu=\frac{1}{2}$. Veamos que significa esto:

Si seguimos la receta de Darío [1], los pasos a seguir para resolver un ejercicio en esta materia son:

  1. Definir la variable aleatoria.
  2. Identificar la distribución de la que proviene.
  3. Determinar los parámetros y calcular lo que se pida.

Si seguimos estos pasos, como cuando resolvimos el inciso a), definimos que la variable aleatoria que nos interesa es $X: \text{cantidad de gotas que caen en una baldosa}$, donde $X$ tiene distribución de Poisson con parámetro $\mu$.

¿Qué estamos diciendo al decir que $\mu = \frac{1}{2}$?

Significa que en promedio, cada baldosa tiene media gota, que es distinto a que la mitad de las baldosas esten mojadas. A diferencia de la binomial, donde el parámetro $p$ representa una probabilidad, $\mu$ tiene "unidades" (de gotas, en este caso). Las comillas se deben a que técnicamente es un parámetro adimensional pero que representa una cantidad de algo, no una probabilidad.

Sabemos por el enunciado que la mitad de las baldosas estaban mojadas y, por lo tanto, la otra mitad secas.

Si calculamos la probabilidad de que la baldosa este seca con $\mu=\frac{1}{2}$ tenemos:

$$P \left( \text{secas} \,\Big|\, \mu=\frac{1}{2} \right) = P \left( k=0 \,\Big|\, \mu = \frac{1}{2} \right) = e^{-\frac{1}{2}} = 0.6$$

y por lo tanto, que esten mojadas es 40%.

Nota: $\mu$ también es la varianza de la distribución Poissoniana.

[1] Esta receta puede no funcionar en todos los casos. La utilización de esta receta no implica la aprobación del parcial. Este procedimiento no es válido en las provincias de Córdoba y Tierra del Fuego.

In [5]:
st.poisson.pmf(0, mu=0.5)
Out[5]:
0.60653065971263342