Analizando los sueldos de la industria del software en Argentina (Parte 3)

hay una diferencia significativa entre la proporción de hombres y mujeres en el decil mejor pago (top 10%) de la industria del software en Argentina.

En el post anterior concluimos que efectivamente había una diferencia en el salario medio dependiendo del género. En este tercer análisis intentaremos rechazar la siguiente hipótesis:

Los cargos con sueldos más altos son ocupados equitativamente por hombres y mujeres.

Para responder esta pregunta debemos primero obtener algunos datos de nuestro dataset:

Cuál es el decil más alto?
Qué proporción de hombres y mujeres tienen un salario mayor o igual a ese valor?
Podemos atribuir la diferencia (de haberla) entre proporciones al azar?

Cuál es el decil más alto (de nuestra muestra)?

Podemos usar R para calcular el decil más alto de nuestra muestra:

> quantile(clean$Income, 0.9)
     90%

41428.57

Podemos ver entonces que el decil más alto para sueldos de software en Argentina es entonces de $41428.57 brutos.

Qué proporción de hombres y mujeres tienen un salario mayor o igual a ese valor?

Para responder esta pregunta podemos usar la función table

> table(clean$Gender, clean$Income >= 41428.57)

FALSE TRUE

F   276   22

M  3256  375

Como vemos, la cantidad de mujeres que pertenecen al último decil es 22 de 276 o sea un 7.9% en el caso de los hombres este número es 375 de 3256, un 11.5%.

La diferencia de porcentaje es entonces del 3.6% aproximadamente.

Podemos atribuir la diferencia entre proporciones al azar?

Como vimos, hay una diferencia entre el porcentaje de hombres y mujeres en el decil más alto de salarios. Hay dos hipótesis que pueden explicar esta diferencia:

La diferencia entre proporciones se debe al azar de la muestra. (Hipótesis Nula)
La diferencia entre proporciones es muy grande como para atribuirla al azar, la diferencia es estadísticamente significativa. (Hipótesis Alternativa)

Para la diferencia de proporciones podemos aplicar el teorema central del límite: la diferencia entre dos proporciones de una muestra (p^¹ -p^²) tiene una distribución normal con centro en la verdadera diferencia entre proporciones (p1-p2), con una desviación estándar conocida (la fórmula es algo larga, la vamos a usar más adelante para evaluar nuestra hipótesis). Para más información sobre este tema en particular, ver aquí.

Resumiendo, tenemos una distribución normal con los siguientes valores:

Media = 0  # p1 — p2 para la hipótesis nula es cero

Desviación estándar = 
sqrt((p1 * (1 - p1) / n1) + (p2 * (1 - p2) / n2))

# siendo:
# p1 = porcentaje de hombres en el último decil
# n1 = total de hombres
# p2 = porcentaje de mujeres en el último decil
# n2 = total de mujeres

# por lo tanto
Desviación estándar = 0.016

Pasemos a graficar nuestra distribución normal:

Según la regla de 68–95–99.7 casi la totalidad de las muestras de una distribución normal caen en -/+ 3 desviaciones estándar (0.016).

Podemos ahora graficar sobre esta distribución el 3.6% de diferencia que observamos en nuestra muestra:

De ser válida la hipótesis nula, la probabilidad de obtener esta diferencia es del 1.4%, si tomamos un nivel de significación del 5% (el utilizado comúnmente en ciencia) podemos descartar la hipótesis nula.

Conclusión

Usando el teorema central del límite para las proporciones determinamos que hay una diferencia estadísticamente significativa entre la proporción de hombres y mujeres en el decil mejor pago de la industria del software en Argentina.

Muchas gracias a Sebastián Waisbrot, Nadia Kazlauskas, Pablo Astigarraga, Sebastián Friseb y Mauro García Aurelio que revisaron el draft.