Repaso

¿Qué aprendimos hasta ahora?

Primer clase:

Segunda clase:

Experimento estocástico: midiendo con un cronómetro

Si medimos una vez cno el cronómetro, pensaríamos que el error de la medición es $0.01$s.

Y eso...

image.png

Es fundamental repetir el experimento.

Ahí vemos que las distintas mediciones del mismo fenómeno no son compatibles.

Estamos subestimando el error, la incerteza de nuestras mediciones.

Entonces, ¿qué valor reportarían y con qué error?

Analizando mediciones

Para analizar las mediciones, usaremos dos paquetes de Python fundamentales para el análisis de datos:

Medimos y guardamos las mediciones en un archivo .csv (comma-separated values).

Importamos las mediciones.

Además, voy a simular las (otras) mediciones de Franco, que usó un programa de análisis de audio.

Veamoslas:

¿Son razonables estas mediciones?

Es dificil contestar esta pregunta a partir de una lista de números.

Una mejor forma es realizando un gráfico.

Graficando mediciones

Graficar es lo primero que tienen que hacer al analizar un conjunto de datos.

Hay muchos tipos de gráficos. ¿Cuál hacemos?

¿Para qué hacemos un gráfico?

Para entender las mediciones, y convencernos, por ejemplo, de que medimos bien.

Además, para convencer a otres de nuestros resultados.

Entonnces, es importante que el gráfico esté bien hecho y sea claro.

Ejemplos

Ejemplo de hoy en Twitter:

image.png

¿Qué es lo que está mal?

Otro ejemplo de Twitter:

image.png

¿Qué es lo que está mal?

Line plot o gráfico de linea

Podemos empezar haciendo un gráfico de linea (o line plot) con plt.plot

Nota: plt.plot es la función más básica, pero está hecha de manera super confusa (para Python).

¿Qué hizo esta función? ¿Qué son los ejes?

En general, esta no es una buena manera de mostrar estos datos.

Este tipo de gráficos da a entender que si se realizara una medición entre dos puntos, esta caería sobre la linea que los une.

Es mejor reservar el gráfico de linea a gráficos de modelos teóricos, en lugar de mediciones experimentales.

Scatter plot o gráfico de dispersión

Otra opción es hacer un scatter plot, que grafica puntos $(x, y)$, pero sin unirlos con una linea:

Se puede hacer así:

Con barras de error

Cuando sabemos cuál es el error de cada punto, se suele hacer un gráfico con barras de error con la función plt.errorbar:

Histograma

Un histograma es una representación de la distribución de los datos.

Nos permite ver la densidad de datos.

Pero no nos permite ver tendencias temporales en los datos.

En general, no nos permite ver relaciones entre dos variables.

Ancho de bin

A diferencia de los gráficos anteriores, hacer un histograma requiere de una elección arbitraria del ancho de los intervalos.

En particular, con pocos datos, es más díficil elegir un número de bins bueno. Generemos más datos para ver como influye variar la cantidad de bins:

Reglas automáticas

Hay diversas reglas automáticas de selección de bins, como la regla de Sturges, que mencionamos en la primer clase.

Cada una asume diferentes hipótesis sobre la distribución de los datos.

Ninguna es infalible, pero son mejores que quedarse con el valor por defecto bins=10.

Quedarse con el valor por defecto (casi) seguro está mal.

image.png

Normalización

Por defecto, un histograma cuenta cuantas muestras cayeron en cada bin.

Pero, si queremos comparar histogramas con diferente cantidad de datos totales, necesitamos normalizar.

Normalización por frecuencia
Normalización por area

Resumen hasta acá

Hay que gráficar (bien):

  1. Para entender nuestras mediciones
  2. Para explicar nuestros resultados

Line o scatter plots nos permiten ver tendencias, o relaciones entre variables.

Histogramas nos permiten ver distribuciones de una variable.

Resumiendo un histograma

Si realizamos muchos experimentos, no podemos mostrar un histograma para cada uno.

Para 2 o 3 experimentos sí, pero para 100 no.

¿Podemos resumir aún más los datos?

En particular, si tuviesen que resumir el siguiente histograma de manera textual, ¿cómo la describirian?