Estar de cumpleaños el mismo día que un amigo puede ser entretenido o ¿quizás no?. En este artículo responderemos la pregunta sobre si existen diferencias o patrones en los días de cumpleaños de los Chilenos.
Para poder responder esta pregunta debemos obtener los datos necesarios para calcular la frecuencia de cumpleaños en un día específico, para lo cual utilizaremos los datos de nacimientos en Chile obtenidos a través de la Ley de Transparencia desde el Instituto Nacional de Estadísticas.
Este conjunto de datos nos describe los atributos de cada uno de los nacimientos ocurridos en territorio chileno y específicamente en este experimento utilizaremos los nacimientos de los años 2016 y 2017.
La única variable que necesitaremos para poder responder nuestra pregunta es la fecha de nacimiento de cada instancia del conjunto de datos. Al tener seleccionada esta columna debemos agrupar nuestros datos por mes y día y luego contar cada una de las filas que entra en cada grupo. Al realizar este procedimiento tenemos un resumen de cuántas personas nacen cada día del año y se ve más o menos así.
Mes | Día | Nacimientos |
2 | 29 | 633 |
1 | 1 | 686 |
9 | 18 | 749 |
12 | 25 | 760 |
10 | 9 | 806 |
… | … | … |
1 | 4 | 1663 |
12 | 26 | 1669 |
12 | 29 | 1798 |
12 | 28 | 1826 |
12 | 27 | 1902 |
Una de las primeras conclusiones que podemos esbozar con los resultados que tenemos hasta este punto es que el día con menos nacimientos es el 29 de febrero y un mes con muchos nacimientos es diciembre.
Uno de los pasos que debemos realizar para poder realizar una transformación posterior de los datos hacia un intervalo que pueda ser interpretado de una manera general (la cantidad bruta de nacimientos no es muy útil para comunicar si un día nacieron muchas o pocas personas) es verificar si estas frecuencias se distribuyen de manera normal, para lo cual primero veremos la distribución en un histograma.
Esta distribución no tiene pinta de normal, lo cual lo confirma la prueba estadística de Kolmogorov-Smirnov. Esto nos dice que no podemos utilizar la estandarización como proceso de normalización de los datos.
El proceso de normalización de los datos nos permitirá reescalar nuestros datos hacia un intervalo en donde podemos tener una intuición de qué significan de una manera general. Me gustaría que valores positivos me comuniquen que estar de cumpleaños ese día es muy común y valores negativos me comuniquen que estar de cumpleaños ese día es poco común. Como nuestros datos no de distribuyen de manera normal, utilizaremos el método de normalización robusta.
El método de normalización robusta nos centrará nuestros datos en 0 utilizando la mediana de nuestra serie de valores y reescalará nuestos datos utilizando el rango intercuartílico de nuestra distribución. El histograma de nuestros datos normalizados se ve así:
Los valores presentes en nuestra serie de datos posterior a la normalización nos comunican que el valor 0 es la cantidad de nacimientos por días más frecuentes. Los valores a la izquierda o derecha del 0 se pueden interpretar como frecuencias poco comunes y muy comunes respectivamente.
Estos valores normalizados nos gustaría orientarlos de manera en que las filas representen los meses del año y las columnas representen los días dentro de cada mes, esto se ve asi:
month | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
day | ||||||||||||
1 | -2.0 | 0.8 | 0.1 | -0.0 | -1.9 | 0.0 | -0.4 | 0.3 | 0.2 | -1.5 | -1.9 | 0.1 |
2 | -1.0 | 0.7 | 0.3 | -1.1 | 0.4 | 0.0 | -1.3 | 0.3 | -0.4 | -0.5 | 0.6 | -0.3 |
3 | -0.1 | 0.7 | 0.0 | -0.4 | 0.4 | -0.6 | -0.5 | -0.0 | -1.2 | 0.5 | 0.6 | -1.2 |
4 | 1.6 | -0.0 | -0.5 | 0.9 | 0.1 | -2.1 | 0.4 | 0.2 | -0.6 | 0.6 | -0.5 | -0.5 |
5 | 1.2 | -0.3 | -1.4 | 0.8 | 0.1 | -1.1 | 0.4 | -0.7 | 0.3 | 0.3 | -1.5 | 0.4 |
6 | 1.2 | -0.0 | -0.9 | 0.8 | -0.8 | -0.0 | 0.2 | -1.6 | 0.2 | 0.3 | -0.7 | 0.3 |
7 | -0.1 | -0.4 | 0.2 | 0.8 | -1.6 | 0.1 | 0.5 | -0.8 | 0.4 | -0.3 | 0.5 | 0.4 |
8 | -0.5 | 0.9 | 0.2 | -0.1 | -0.9 | 0.3 | -0.4 | 0.3 | 0.5 | -1.4 | 0.3 | -1.1 |
9 | -0.1 | 0.8 | 0.0 | -0.9 | 0.1 | 0.3 | -1.5 | 0.3 | -0.2 | -1.6 | 0.1 | -0.6 |
10 | -0.3 | 0.9 | 0.2 | -0.1 | 0.1 | -0.6 | -0.8 | 0.5 | -1.3 | -0.3 | 0.1 | -1.2 |
11 | 0.9 | -0.0 | -0.5 | 1.1 | 0.0 | -1.7 | 0.4 | 0.5 | -0.7 | 0.5 | -0.6 | -0.4 |
12 | 0.6 | -0.3 | -1.3 | 0.9 | 0.2 | -0.9 | 0.2 | -0.4 | 0.8 | 0.7 | -1.6 | 0.4 |
13 | 0.4 | -0.0 | -0.9 | 0.6 | -0.8 | -0.0 | 0.0 | -1.5 | 0.7 | 0.3 | -0.9 | -0.0 |
14 | 0.0 | -0.4 | 0.2 | -0.2 | -1.6 | 0.1 | 0.2 | -0.9 | 0.7 | 0.0 | 0.1 | 0.4 |
15 | -0.4 | 1.0 | -0.1 | -0.3 | -1.0 | 0.4 | -0.5 | -1.6 | 0.3 | -1.3 | 0.1 | 0.3 |
16 | 0.0 | 1.0 | 0.1 | -1.0 | 0.3 | 0.3 | -1.5 | 0.6 | -0.6 | -0.6 | 0.1 | -0.4 |
17 | -0.2 | 0.9 | 0.0 | -0.1 | 0.2 | -0.6 | -0.9 | 0.2 | -1.5 | 0.4 | -0.1 | -1.1 |
18 | 0.8 | 0.0 | -0.6 | 1.0 | 0.2 | -2.0 | 0.2 | 0.3 | -1.7 | 0.4 | -0.6 | -0.4 |
19 | 0.6 | -0.3 | -1.3 | -0.2 | -0.0 | -0.7 | 0.1 | -0.4 | -1.4 | 0.5 | -1.7 | 0.7 |
20 | 0.8 | 0.0 | -0.9 | 0.7 | -0.3 | 0.4 | 0.2 | -1.6 | 0.4 | 0.6 | -0.9 | 0.8 |
21 | -0.1 | -0.1 | 0.1 | 0.8 | -1.9 | 0.4 | 0.2 | -0.6 | 0.6 | -0.5 | 0.0 | 0.5 |
22 | -0.2 | 1.0 | 0.4 | 0.0 | -0.9 | 0.3 | -0.5 | 0.4 | 0.4 | -1.3 | 0.3 | 0.0 |
23 | 0.4 | 0.6 | 0.1 | -0.9 | 0.1 | 0.4 | -1.5 | 0.2 | -0.1 | -0.4 | 0.3 | -1.0 |
24 | -0.4 | 0.8 | -0.2 | -0.2 | 0.3 | -0.5 | -0.7 | 0.1 | -1.0 | 0.6 | 0.4 | -1.2 |
25 | 0.7 | -0.2 | -1.4 | 0.7 | 0.1 | -2.0 | 0.5 | 0.0 | -0.5 | 0.9 | -0.4 | -1.5 |
26 | 1.0 | -0.3 | -1.5 | 0.6 | -0.1 | -2.2 | 0.1 | -0.7 | 0.2 | 0.8 | -1.5 | 1.1 |
27 | 0.8 | 0.1 | -0.9 | 0.9 | -0.4 | -0.7 | 0.0 | -1.5 | 0.2 | 0.0 | -0.8 | 1.8 |
28 | 0.2 | -0.2 | 0.3 | 0.9 | -1.7 | 0.4 | 0.2 | -0.6 | 0.1 | -0.3 | 0.6 | 1.6 |
29 | -0.4 | -2.0 | 0.1 | -0.0 | -0.6 | 0.2 | -0.4 | 0.4 | -0.2 | -1.6 | 0.1 | 1.5 |
30 | -0.1 | NaN | 0.1 | -1.0 | 0.2 | 0.4 | -1.3 | 0.2 | -0.4 | -0.5 | -0.0 | 0.4 |
31 | -0.5 | NaN | -0.2 | NaN | 0.1 | NaN | -0.9 | -0.3 | NaN | -0.4 | NaN | -0.5 |
La representación anterior de los datos si bien está correcta, el muy árida de visualizar. Una de las maneras de visualizar esta tabla es a través de un mapa de calor en donde los valores de cada una de las filas se mapean hacia un color de una paleta de colores, esta visualización se ve de esta manera:
Con esta simple visualización podemos comunicar la misma información de la tabla anterior de una forma mucho más intuitiva. Los cumpleaños poco comunes se representan con color rojo y los más comunes con un color verde.
Un patrón interesante es que hay una caída en los cumpleaños con un periodo estable de 7 días, con lo que podemos concluir que los fines de semana nacen menos personas, en función de esto mismo, también hay bajas de nacimientos en días cercanos a los festivos. Una de las razones que podemos esbozar para explicar este fenómeno es la alta frecuencia de partos programados.
Otra vista interesante de nuestro conjunto de datos es agrupar sólo por meses, para conocer cuáles son los meses con más cumpleaños, para esto se utilizó el mismo procedimiento anterior y el resultado se visualiza en un gráfico de barras:
Con esta vista de nuestro conjunto de datos podemos emitir la conclusión que los nacimientos en Chile se distribuyen mayormente en los meses cálidos.
No cacho nada, ademas no me dan ninguna solusion a mi consulta, que es, saber si tengo algun bono.
Soy jubilado y no cacho mucho de computasion
Buen post. Quizás sería bueno hacer un barrido con los datos desde 1990, que es la disponibilidad de esos datos
La verdad lo hice con esos años porque son los que me entregaron mediante Ley de Transparencia. ¿Tienes los otros años?, porque si los tienes, podríamos conversar 😀