¿Qué tan común es tu cumpleaños?

Estar de cumpleaños el mismo día que un amigo puede ser entretenido o ¿quizás no?. En este artículo responderemos la pregunta sobre si existen diferencias o patrones en los días de cumpleaños de los Chilenos.

Distribución de la frecuencia de cumpleaños por cada día del año en Chile

Para poder responder esta pregunta debemos obtener los datos necesarios para calcular la frecuencia de cumpleaños en un día específico, para lo cual utilizaremos los datos de nacimientos en Chile obtenidos a través de la Ley de Transparencia desde el Instituto Nacional de Estadísticas.

Este conjunto de datos nos describe los atributos de cada uno de los nacimientos ocurridos en territorio chileno y específicamente en este experimento utilizaremos los nacimientos de los años 2016 y 2017.

La única variable que necesitaremos para poder responder nuestra pregunta es la fecha de nacimiento de cada instancia del conjunto de datos. Al tener seleccionada esta columna debemos agrupar nuestros datos por mes y día y luego contar cada una de las filas que entra en cada grupo. Al realizar este procedimiento tenemos un resumen de cuántas personas nacen cada día del año y se ve más o menos así.

MesDíaNacimientos
229633
11686
918749
1225760
109806
141663
12261669
12291798
12281826
12271902
Cabecera y cola de la tabla de frecuencia de nacimientos por día del año.

Una de las primeras conclusiones que podemos esbozar con los resultados que tenemos hasta este punto es que el día con menos nacimientos es el 29 de febrero y un mes con muchos nacimientos es diciembre.

Uno de los pasos que debemos realizar para poder realizar una transformación posterior de los datos hacia un intervalo que pueda ser interpretado de una manera general (la cantidad bruta de nacimientos no es muy útil para comunicar si un día nacieron muchas o pocas personas) es verificar si estas frecuencias se distribuyen de manera normal, para lo cual primero veremos la distribución en un histograma.

Esta distribución no tiene pinta de normal, lo cual lo confirma la prueba estadística de Kolmogorov-Smirnov. Esto nos dice que no podemos utilizar la estandarización como proceso de normalización de los datos.

El proceso de normalización de los datos nos permitirá reescalar nuestros datos hacia un intervalo en donde podemos tener una intuición de qué significan de una manera general. Me gustaría que valores positivos me comuniquen que estar de cumpleaños ese día es muy común y valores negativos me comuniquen que estar de cumpleaños ese día es poco común. Como nuestros datos no de distribuyen de manera normal, utilizaremos el método de normalización robusta.

El método de normalización robusta nos centrará nuestros datos en 0 utilizando la mediana de nuestra serie de valores y reescalará nuestos datos utilizando el rango intercuartílico de nuestra distribución. El histograma de nuestros datos normalizados se ve así:

Los valores presentes en nuestra serie de datos posterior a la normalización nos comunican que el valor 0 es la cantidad de nacimientos por días más frecuentes. Los valores a la izquierda o derecha del 0 se pueden interpretar como frecuencias poco comunes y muy comunes respectivamente.

Estos valores normalizados nos gustaría orientarlos de manera en que las filas representen los meses del año y las columnas representen los días dentro de cada mes, esto se ve asi:

month123456789101112
day
1-2.00.80.1-0.0-1.90.0-0.40.30.2-1.5-1.90.1
2-1.00.70.3-1.10.40.0-1.30.3-0.4-0.50.6-0.3
3-0.10.70.0-0.40.4-0.6-0.5-0.0-1.20.50.6-1.2
41.6-0.0-0.50.90.1-2.10.40.2-0.60.6-0.5-0.5
51.2-0.3-1.40.80.1-1.10.4-0.70.30.3-1.50.4
61.2-0.0-0.90.8-0.8-0.00.2-1.60.20.3-0.70.3
7-0.1-0.40.20.8-1.60.10.5-0.80.4-0.30.50.4
8-0.50.90.2-0.1-0.90.3-0.40.30.5-1.40.3-1.1
9-0.10.80.0-0.90.10.3-1.50.3-0.2-1.60.1-0.6
10-0.30.90.2-0.10.1-0.6-0.80.5-1.3-0.30.1-1.2
110.9-0.0-0.51.10.0-1.70.40.5-0.70.5-0.6-0.4
120.6-0.3-1.30.90.2-0.90.2-0.40.80.7-1.60.4
130.4-0.0-0.90.6-0.8-0.00.0-1.50.70.3-0.9-0.0
140.0-0.40.2-0.2-1.60.10.2-0.90.70.00.10.4
15-0.41.0-0.1-0.3-1.00.4-0.5-1.60.3-1.30.10.3
160.01.00.1-1.00.30.3-1.50.6-0.6-0.60.1-0.4
17-0.20.90.0-0.10.2-0.6-0.90.2-1.50.4-0.1-1.1
180.80.0-0.61.00.2-2.00.20.3-1.70.4-0.6-0.4
190.6-0.3-1.3-0.2-0.0-0.70.1-0.4-1.40.5-1.70.7
200.80.0-0.90.7-0.30.40.2-1.60.40.6-0.90.8
21-0.1-0.10.10.8-1.90.40.2-0.60.6-0.50.00.5
22-0.21.00.40.0-0.90.3-0.50.40.4-1.30.30.0
230.40.60.1-0.90.10.4-1.50.2-0.1-0.40.3-1.0
24-0.40.8-0.2-0.20.3-0.5-0.70.1-1.00.60.4-1.2
250.7-0.2-1.40.70.1-2.00.50.0-0.50.9-0.4-1.5
261.0-0.3-1.50.6-0.1-2.20.1-0.70.20.8-1.51.1
270.80.1-0.90.9-0.4-0.70.0-1.50.20.0-0.81.8
280.2-0.20.30.9-1.70.40.2-0.60.1-0.30.61.6
29-0.4-2.00.1-0.0-0.60.2-0.40.4-0.2-1.60.11.5
30-0.1NaN0.1-1.00.20.4-1.30.2-0.4-0.5-0.00.4
31-0.5NaN-0.2NaN0.1NaN-0.9-0.3NaN-0.4NaN-0.5
Frecuencia normalizada de cumpleaños por dia del año.

La representación anterior de los datos si bien está correcta, el muy árida de visualizar. Una de las maneras de visualizar esta tabla es a través de un mapa de calor en donde los valores de cada una de las filas se mapean hacia un color de una paleta de colores, esta visualización se ve de esta manera:

Distribución de la frecuencia de cumpleaños por cada día del año en Chile

Con esta simple visualización podemos comunicar la misma información de la tabla anterior de una forma mucho más intuitiva. Los cumpleaños poco comunes se representan con color rojo y los más comunes con un color verde.

Un patrón interesante es que hay una caída en los cumpleaños con un periodo estable de 7 días, con lo que podemos concluir que los fines de semana nacen menos personas, en función de esto mismo, también hay bajas de nacimientos en días cercanos a los festivos. Una de las razones que podemos esbozar para explicar este fenómeno es la alta frecuencia de partos programados.

Otra vista interesante de nuestro conjunto de datos es agrupar sólo por meses, para conocer cuáles son los meses con más cumpleaños, para esto se utilizó el mismo procedimiento anterior y el resultado se visualiza en un gráfico de barras:

Distribución de la frecuencia de cumpleaños por cada mes del año en Chile

Con esta vista de nuestro conjunto de datos podemos emitir la conclusión que los nacimientos en Chile se distribuyen mayormente en los meses cálidos.

4 Replies to “¿Qué tan común es tu cumpleaños?”

    1. La verdad lo hice con esos años porque son los que me entregaron mediante Ley de Transparencia. ¿Tienes los otros años?, porque si los tienes, podríamos conversar 😀

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.