Visualización exploratoria
El lugar de las mujeres en el mapa universitario nacional
Presentación
Chicas en Tecnología (CET) es una organización de la sociedad civil argentina que desde 2015 busca reducir la brecha de género en tecnología. Para eso, a través de programas e iniciativas libres y gratuitas, motiva, forma y acompaña a chicas de todo el país y región para que puedan ser la próxima generación de mujeres líderes en tecnología.
La organización trabaja junto a referentes del ecosistema educativo y emprendedor tecnológico para generar un entorno en el que las adolescentes puedan desarrollarse académica y profesionalmente en disciplinas STEAM (acrónimo en inglés de Ciencia, Tecnología, Ingeniería, Arte y Matemática). Con ese objetivo, Chicas en Tecnología genera relevamientos e investigaciones para construir conocimiento sobre el contexto actual en materia de brecha de género en el sector. A través de sus proyectos de investigación la organización busca recolectar, analizar, sistematizar y comunicar datos para generar debates, acciones y estrategias que desarrollen el acceso de más mujeres a estas disciplinas.
Datos abiertos para construir entornos diversos
En 2019 Chicas en Tecnología fue una de las tres organizaciones de todo el mundo en ganar una beca de Nextjournal para realizar una visualización exploratoria sobre un conjunto de datos (dataset) relevante para la comunidad. En esa oportunidad Nextjournal buscaba organizaciones que quisieran realizar análisis de datos que pudiesen ser reproducidos por otras personas sobre sus propios conjuntos de datos y así expandir y potenciar el trabajo colaborativo.
Chicas en Tecnología aplicó a la beca de Nextjournal con una base de datos propia e inédita, que es de acceso público y libre, sobre estudiantes de nivel universitario que abarca todas las carreras de todas las universidades de la Argentina. La organización recolectó esta base con el objetivo de conocer la presencia de mujeres en el ámbito académico nacional. En 2018 CET había publicado "Mujeres programadoras", el primer análisis realizado con ese conjunto de datos y enfocado en la participación de mujeres en carreras relacionadas con Programación. Luego de ese primer relevamiento cuantitativo, en 2019 presentó "Menos Mitos, Más Datos", una investigación realizada junto a INTAL BID en la que se avanzó en el análisis cualitativo sobre la experiencia de las mujeres argentinas en disciplinas STEAM. En esta nueva instancia se construye información sobre la brecha de género a partir de una plataforma que permite realizar el análisis y visualización de datos de forma online y transparente, con la posibilidad de que sea reproducido y compartido ya que el código y los datos son visibles.
Lo que motivó la postulación a la beca de Nextjournal fue el objetivo de transformar ese conjunto de datos en información accesible, disponible y útil para diversos actores de la sociedad como docentes, estudiantes, personas dedicadas a la investigación, periodistas, instituciones, organizaciones sociales y el público en general. Abrir las bases de datos y los resultados de las investigaciones es una de las vías para que la información circule en la sociedad, se habilite la continua construcción de conocimiento sobre la temática y se incentive la toma de decisiones y políticas públicas para reducir la brecha de género en el sector tecnológico.
A partir de las visualizaciones de datos realizadas con la plataforma Nextjournal se pueden combinar variables sociodemográficas; comparar carreras por regiones; ver cómo las universidades están distribuidas en todo el país; cuáles tienen mayores porcentajes de diversidad entres sus estudiantes y así, por ejemplo, conocer más sobre sus características, buenas prácticas o políticas institucionales para crear espacios académicos más diversos.
En el informe a continuación se detallan los análisis realizados por Chicas en Tecnología sobre su propio dataset y las potenciales nuevas lecturas y combinaciones de esos datos, o de otros conjuntos de datos, para que los análisis planteados por la organización puedan extenderse a otros entornos.
La propuesta de visualización de datos creada por la organización permite que las personas interactúen con los gráficos a fin de focalizar en la información que consideran más pertinente. Estos esquemas gráficos son de código abierto, es decir que su construcción es transparente para cualquier persona que quiera replicarlos utilizando otro conjunto de datos. Otros países pueden utilizar esta propuesta con datos locales para generar información accesible sobre su propia coyuntura. Ya sea para realizar un análisis con enfoque de género o sobre otras temáticas, todas las herramientas utilizadas por Chicas en Tecnología están disponibles para ser mejoradas y compartidas por el público.
Equipo de trabajo
Agustín Benassi, Magdalena Segura y Carolina Hadad trabajaron en equipo para realizar la clasificación manual de los datos, el análisis y las visualizaciones.
El acceso a las bases de datos públicas
El siguiente análisis abarca el dataset completo de estudiantes de nivel universitario en Argentina con indicadores como: cantidad de estudiantes, personas inscriptas y graduadas de todas las carreras de todas las universidades argentinas.
Para obtener esta información Chicas en Tecnología realizó un primer pedido de acceso a la información pública (regulado por la Ley N° 27.275) en 2018 al Ministerio de Educación y un nuevo pedido en 2019. Como respuesta, la organización recibió una extensa hoja de cálculo con una fila por cada carrera y año (de 2010 a 2017) y datos sobre estudiantes segmentados por género sobre la que se realizó un trabajo profundo y detallado. Este periodo (2010-2017) es el segmento más completo al que se pudo acceder ya que la información previa al año 2010 no se encuentra digitalizada y, por otro lado, solo se entrega información hasta dos años anteriores a la fecha del pedido. La información solicitada en 2019 incluye los datos del año 2017 como máximo. Si se realizara un nuevo pedido de información con fecha de 2020, se podría actualizar la base con los datos del año 2018, y así sucesivamente. Para consultar la descripción de la información entregada por el Ministerio de Educación se puede acceder a este link.
En el análisis se considera el intervalo 2011 - 2017 y comprende:
Carreras de pregrado (tecnicaturas)
Carreras de grado
Carreras de posgrado (especializaciones, masters, doctorados)
de todas las casas de estudio universitarias de Argentina. La decisión de dejar fuera del análisis el año 2010 se debe a que la Universidad de Buenos Aires (UBA) no entregó los datos correspondientes a ese periodo de tiempo.
A continuación están disponibles los datos tal cual fueron entregados por el Ministerio de Educación:
Categorizar los datos
Los archivos analizados pesan 24 MB en total y mediante la utilización de código se puede ver cuántas líneas tienen:
lineas_archivo_1 = sum(1 for line in open(Datos 2010-2016.csv))
lineas_archivo_2 = sum(1 for line in open(Datos 2017.csv))
print(f"La suma de lineas de los dos archivos es {lineas_archivo_1+lineas_archivo_2}")
Sumados, ambos archivos tienen más de 70 mil líneas y cada una representa los datos de cada carrera, correspondiente a cada universidad, de cada año.
Grupos temáticos de carreras
Para comenzar con el análisis fue necesario agrupar esa gran cantidad de datos. En este caso se decidió agrupar las carreras temáticamente*:
Arquitectura y Urbanismo
Artes
Comunicación
Diseño
Económicas
Educación
Exactas
Hotelería, Gastronomía y Turismo
Informática
Ingeniería
Jurídicas
Naturales
Otros
Psicología
Salud
Sociales
Para realizar la organización por grupos temáticos se listaron todos los títulos de las carreras en un archivo, por ejemplo "Licenciado en Ciencias de la Computación" o "Doctor en Química Orgánica", y se agregaron dos columnas: carrera_grupo
y carrera_normalizada
. En ese ejemplo el mapeo quedaría así:
La asignación de cada carrera a un grupo temático fue la tarea de mayor proceso manual de todo el análisis. La base de datos contiene alrededor de 8 mil títulos de carreras diferentes y se utilizó una combinación de macros en la hoja de cálculo local, filtros y mucha revisión manual, ya que no bastaba con decir "Si el título tiene la palabra 'física' entonces su grupo es Exactas y nombre normalizado Física" porque, por ejemplo, la carrera "Educación Física" no corresponde a ese análisis. Este es solo un ejemplo de varios casos similares.
El mapeo completo de las carreras organizadas por temas puede encontrarse a continuación y está abierto para que las personas interesadas realicen mejoras, arreglen posibles errores o simplemente lo utilicen como base para otros mapeos con grupos de carreras diferentes.
*En los gráficos los nombres de las carreras están sin tildes por una cuestión de normalización de los datos.
Geolocalización
Otro proceso manual realizado para analizar los datos fue el de geolocalizar (buscar la latitud y longitud para poder visualizar en un mapa) todas las universidades y casas de estudio del país incluidas en la base provista por el Ministerio de Educación. El proceso se llevó a cabo mediante el uso de la API del Servicio de Normalización de Datos Geográficos de Argentina pero fue necesario revisar los resultados manualmente.
El código utilizado para distribuir las carreras en grupos, geolocalizar las universidades y hacer diversas transformaciones puede consultarse en el siguiente repositorio. Allí se encuentran también los archivos utilizados como inputs y outputs e instrucciones para cambiarlos. En el repositorio puede verse también cómo incluir el año 2010 si fuera necesario.
Análisis de datos: una primera aproximación al sistema universitario
Por grupos de carreras
En primer lugar, el análisis estuvo destinado a relevar la cantidad de inscripciones en todo el sistema universitario. En el próximo gráfico* se puede ver que el número de personas que se inscriben en las distintas carreras crece cada año. Cabe destacar que en este gráfico no hay distinción por nivel educativo sino que se suman todos: pregrado, grado y posgrado. Con esta misma base de datos, si se quisiera realizar un abordaje alternativo, se podría segmentar la cantidad de inscripciones correspondientes a cada nivel.
*Los gráficos del análisis son interactivos y se pueden clickear las referencias para mostrar u ocultar los grupos de carreras.
#Traigo del repositorio las versiones más recientes de los archivos output procesados, para usarlos en las visualizaciones
cp /visualizacion_carreras/data/output/grupos_evolucion_genero.csv /results
import pandas as pd
import plotly.express as px
#Analisis de grupos de carreras
df_evolucion_grupos = pd.read_csv(grupos_evolucion_genero.csv)
fig = px.bar(data_frame=df_evolucion_grupos, x="anio", y="nuevos_inscriptos_total", labels={"anio" : "Año", "nuevos_inscriptos_total" : "Total de Inscripciones", "carrera_grupo" : "Grupo"}, hover_data=["anio","carrera_grupo","nuevos_inscriptos_total"], color="carrera_grupo", color_discrete_sequence=px.colors.qualitative.Light24)
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Grupo=", "")))
fig.update_layout(legend_orientation="h")
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_layout(title="Total Inscripciones por año", xaxis_title=None, yaxis_title=None)
fig
Al desagregar la información por grupos de carreras se puede ver que 4 de cada 10 personas que se inscriben lo hacen a carreras relacionadas con la Salud, Jurídicas o Económicas. El grupo de carreras que tiene menos inscripciones es el de Exactas: solo 1 de cada 100 personas se anota en una carrera relacionada a las Ciencias Exactas (Matemática, Química, Física, etc). Los grupos de Informáticas e Ingenierías presentan números parejos: 6 de cada 100 personas se anotan en Ingeniería y también 6 de cada 100 se anotan en carreras relacionadas a Informática. En el siguiente gráfico se observa un promedio de inscripciones de todos los años considerados para simplificar el análisis.
#Agrupamos y tomamos un average de los valores, para obtener valores que simulen un "año tipio"
df_evolucion_grupos = df_evolucion_grupos.groupby(["carrera_grupo"]).mean()
df_evolucion_grupos= df_evolucion_grupos.reset_index()
fig = px.scatter(df_evolucion_grupos, x="carrera_grupo", y="nuevos_inscriptos_total", color='carrera_grupo', color_discrete_sequence=px.colors.qualitative.Light24, labels={"anio" : "Año", "nuevos_inscriptos_total" : "Total Inscripciones en año típico", "carrera_grupo" : "Grupo"},size="nuevos_inscriptos_total", hover_data=["carrera_grupo","nuevos_inscriptos_total"],)
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Grupo=", "")))
fig.update_layout(legend_orientation="h")
fig.update_layout(legend=dict(x=-.1, y=1.1))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_layout(height=1000)
fig.update_layout(title=None, xaxis_title=None, yaxis_title="Inscripciones por grupo de carrera")
fig.update_layout(title=dict(x=0, y=1))
fig
Gestión pública o privada
El siguiente aspecto que se quiso analizar fue, para estos grupos de carreras, cuántas inscripciones corresponden al sistema público y cuántas al privado.
En el gráfico a continuación se visibiliza rápidamente que la mayoría de las personas estudia en el sistema público pero, en algunos grupos de carreras (Jurídicas, Comunicación, Hotelería, Gastronomía y Turismo y Económicas), el sistema privado representa más de la mitad de las inscripciones del sistema público. En otros grupos como Exactas, Ingenierías, Artes y Naturales el número de personas que estudian en el sistema privado es muy bajo en comparación con la cantidad de personas que estudian en el sistema público.
cp /visualizacion_carreras/data/output/evolucion_grupo_nivel_gestion.csv /results
cp /visualizacion_carreras/data/output/evolucion_grupo_nivel_modalidad.csv /results
df_evolucion_grupo = pd.read_csv(evolucion_grupo_nivel_gestion.csv)
#Agrupamos y tomamos un average de los valores, para obtener valores que simulen un "año tipio"
df_evolucion_grupo = df_evolucion_grupo.groupby(["carrera_grupo", "institucion_gestion", "carrera_titulo_nivel"]).mean()
df_evolucion_grupo= df_evolucion_grupo.reset_index()
fig = px.bar(df_evolucion_grupo, x="carrera_grupo", y="nuevos_inscriptos_total",labels={"carrera_grupo" : "Grupo", "nuevos_inscriptos_total": "Total Inscripciones en año típico", "institucion_gestion" : "Gestion"}, hover_data=['carrera_grupo', "nuevos_inscriptos_total", "institucion_gestion", "carrera_titulo_nivel"], barmode='group', color="institucion_gestion")
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_layout(height=900)
fig.update_layout(title="Inscripciones año típico por tipo de gestión", xaxis_title=None, yaxis_title=None)
fig
A distancia o presencial
Para analizar cuál es la modalidad más elegida, a distancia o presencial, se realizó una agrupación por nivel educativo que permite observar cómo la modalidad a distancia, al menos hasta el año 2017, es elegida en menor proporción que la modalidad presencial. Se puede ver una excepción en las carreras de pregrado, en las que se observa una mayor proporción de personas que eligen modalidad a distancia.
En futuros análisis de datos sobre el sistema universitario sería interesante investigar si el vuelco repentino y forzoso hacia la educación a distancia, a causa de las medidas de prevención adoptadas a nivel nacional para evitar la propagación del nuevo coronavirus, tuvieron impacto en las preferencias o posibilidades de la población estudiantil en el mediano plazo con respecto a estas dos modalidades.
df_evolucion_grupo = pd.read_csv(evolucion_grupo_nivel_modalidad.csv)
#Agrupamos y tomamos un average de los valores, para obtener valores que simulen un "año tipio"
df_evolucion_grupo = df_evolucion_grupo.groupby(["carrera_grupo", "Modalidad", "carrera_titulo_nivel"]).mean()
df_evolucion_grupo= df_evolucion_grupo.reset_index()
fig = px.bar(df_evolucion_grupo, x="carrera_titulo_nivel", y="nuevos_inscriptos_total",labels={"carrera_grupo" : "Grupo", "nuevos_inscriptos_total": "Total Inscripciones en año típico", "Modalidad" : "Modalidad"}, hover_data=['carrera_grupo', "nuevos_inscriptos_total", "Modalidad", "carrera_titulo_nivel"], barmode='group', color="Modalidad")
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_layout(height=900)
fig.update_layout(title="Inscripciones año típico por modalidad y nivel", xaxis_title=None, yaxis_title=None)
fig
Dónde están las mujeres
En el análisis también se realizó la visualización de cuántos varones y cuántas mujeres hay en cada grupo de carreras. Se lleva a cabo esa clasificación binaria ya que la información brindada por el Ministerio de Educación en respuesta al pedido de acceso público a la información únicamente incluye datos de varones y mujeres y no contempla otras identidades de género.
En primer lugar, un dato relevante es que todos los grupos de carreras, exceptuando dos, tienen más de 45% de estudiantes mujeres. ¿Cuáles son esos dos grupos que se diferencian del resto? El grupo de Ingenierías y el de Informáticas. En ambos casos se puede observar que el porcentaje de mujeres en estas disciplinas está por debajo del 25% y en Informática incluso es menor, ya que ronda el 16%. Si se retoma el enunciado anterior se puede analizar que solo 6 de cada 100 personas inscriptas en la universidad corresponden a carreras relacionadas con Informática y que solo 1 de esas 6 personas es mujer.
En comparación con el gráfico de "Total de inscripciones por año", las Ingenierías y las carreras relacionadas a la Informática están en un nivel medio de inscripciones, pero ese nivel baja abruptamente cuando se tiene en cuenta el porcentaje de estudiantes mujeres. En cambio, grupos de carreras como Exactas, Arquitectura, Diseño y Artes, que están en los niveles más bajos de inscripciones totales, tienen paridad o mayoría de mujeres.
Las carreras con mayor número de inscripciones correspondientes a mujeres son las relacionadas con Psicología (+8 de cada 10 estudiantes son mujeres), Educación y Salud (con un 75% de estudiantes mujeres cada una).
df_evolucion_grupos = pd.read_csv(grupos_evolucion_genero.csv)
fig = px.line(df_evolucion_grupos, x="anio", y="inscripciones_mujeres_pct", color='carrera_grupo', color_discrete_sequence=px.colors.qualitative.Light24, labels={"anio" : "Año", "inscripciones_mujeres_pct" : "Porcentaje Mujeres Inscrptas", "carrera_grupo" : "Grupo", "nuevos_inscriptos_total": "Total Inscripciones"}, hover_data=["anio","carrera_grupo","inscripciones_mujeres_pct","nuevos_inscriptos_total"])
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Grupo=", "")))
fig.update_layout(legend_orientation="h", legend=dict(x=-.1, y=1.2))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_layout(height=800)
fig.update_traces(mode='lines+markers')
fig.update_layout(title=None, xaxis_title=None, yaxis_title=" Porcentaje mujeres inscriptas por grupo de carrera")
fig.update_yaxes(tickformat=',.0%', hoverformat=',.0%')
fig.update_yaxes(range=[0,1])
fig
Para analizar el cupo femenino en cada grupo de carreras se utilizó la métrica de inscripciones, pero a partir de un remix de este documento en el que se modifique en el código el eje y
del gráfico pueden analizarse también las variables: "estudiantes_total","estudiantes_varones","estudiantes_mujeres", "nuevos_inscriptos_total","nuevos_inscriptos_varones","nuevos_inscriptos_mujeres", "egresados_total","egresados_varones","egresados_mujeres"
y los porcentajes: "estudiantes_mujeres_pct", "inscripciones_mujeres_pct", "estudiantes_hombres_pct"
.
El análisis comparativo por grupos de carreras realizado hasta aquí puede complementarse con otros enfoques a partir de los datos obtenidos, por ejemplo: cómo es la distribución de género por nivel educativo o si la modalidad presencial/a distancia es más elegida para ciertos grupos de carrera.
Detalle por grupo de carreras
A partir de las visualizaciones de datos realizadas se pudo observar que los grupos de carreras presentan variaciones respecto a la distribución por género. A continuación se incluyen algunos abordajes para profundizar ese análisis.
Tecnología en carreras con mayor cupo de mujeres
Uno de los primeros hallazgos afirma datos previos generados por investigaciones de Chicas en Tecnología y tiene que ver con que, incluso en los grupos de carreras con más del 70% de estudiantes mujeres, cuando la carrera o la especialidad tiene que ver con Tecnología/Programación/Informática, decrece el porcentaje de mujeres que la estudian.
Educación
El grupo Educación cuenta con 7.5 mujeres por cada 10 estudiantes. A continuación se incluyen los archivos utilizados para elaborar los siguientes hallazgos para que el público general pueda revisarlos y modificarlos.
En el caso de las carreras relacionadas con Educación se realizó una segmentación por niveles educativos y una agrupación de las carreras vinculadas a Tecnología Educativa. En base a ese análisis se llegó a los siguientes datos:
De 100 personas que se inscriben para ser maestras jardineras, o trabajar en educación inicial en general, 98 son mujeres.
De las personas que se inscriben para desempeñarse en educación primaria y especial, +9 de cada 10 son mujeres.
De las personas que deciden especializarse en tecnología educativa (las personas encargadas de aplicar herramientas tecnológicas en el ámbito de la educación), 6 de cada 10 son mujeres.
A partir de estos datos se puede observar un decrecimiento en la participación de mujeres con respecto a las áreas del conocimiento en la Educación que están más cerca de la Tecnología.
cp /visualizacion_carreras/data/output/grupos_carreras_evolucion_genero.csv /results
df_evolucion_carreras = pd.read_csv(grupos_carreras_evolucion_genero.csv)
is_educacion = df_evolucion_carreras["carrera_grupo"]=="Educacion"
df_educacion = df_evolucion_carreras[is_educacion]
fig = px.line(df_educacion, x="anio", y="inscripciones_mujeres_pct", color='Carrera_normalizada', color_discrete_sequence=px.colors.qualitative.Light24, labels={"anio" : "Año", "inscripciones_mujeres_pct" : "Porcentaje Mujeres Inscrptas", "Carrera_normalizada" : "Carrera Normalizada", "nuevos_inscriptos_total": "Total Inscripciones"}, hover_data=["anio","Carrera_normalizada","inscripciones_mujeres_pct","nuevos_inscriptos_total"])
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout(legend_orientation="h")
fig.update_layout(legend=dict(x=-.1, y=1.2))
fig.update_layout({'plot_bgcolor': "#fafafa"})
fig.update_traces(mode='lines+markers')
fig.layout.yaxis.title="Mujeres Inscriptas (Grupo=Educación)"
fig.layout.yaxis.tickformat= ',.0%'
fig
Artes
El mismo fenómeno se puede ver en las carreras relacionadas al Arte y Diseño.
Las artes visuales, las del teatro y la danza cuentan con más del 70% de estudiantes mujeres. En cambio, en las artes digitales y multimedia las mujeres representan el 40% del estudiantado. Un dato para destacar es que en cada año se observa un crecimiento sostenido del porcentaje de mujeres que deciden inscribirse en Artes Digitales y Multimedia. Las inscriptas en estas carreras pasaron de ser el 29% en 2011 al 47% en 2017. La cantidad de personas inscriptas en Artes Digitales y Multimedia se mantiene constante en alrededor de 300 personas por año. Por lo que los números totales de mujeres inscriptas son bajos pero están creciendo en proporción. En el resto de las carreras los porcentajes de mujeres inscriptas se mantienen constantes.
is_artes = df_evolucion_carreras["carrera_grupo"]=="Artes"
df_artes = df_evolucion_carreras[is_artes]
fig = px.line(df_artes, x="anio", y="inscripciones_mujeres_pct", color='Carrera_normalizada', color_discrete_sequence=px.colors.qualitative.Light24, labels={"anio" : "Año", "inscripciones_mujeres_pct" : "Porcentaje Mujeres Inscriptas", "Carrera_normalizada" : "Carrera Normalizada", "nuevos_inscriptos_total": "Total Inscripciones"}, hover_data=["anio","Carrera_normalizada","inscripciones_mujeres_pct","nuevos_inscriptos_total"])
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout(legend_orientation="h")
fig.update_layout(legend=dict(x=-.1, y=1.2))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_traces(mode='lines+markers')
fig.layout.yaxis.title="Mujeres Inscriptas (Grupo=Artes)"
fig.layout.yaxis.tickformat= ',.0%'
fig
Diseño
En el caso de las carreras agrupadas en Diseño se hace presente la homogeneidad en cuanto a la participación de mujeres. En Diseño de indumentaria y textil, de cada 100 personas inscriptas, más de 95 son mujeres. En el otro extremo, el Diseño de videojuegos cuenta con 5 mujeres de cada 100 personas inscriptas. Las carreras de Diseño Digital y Multimedia, más cercanas a la Tecnología y la Informática, cuentan con un 40% de mujeres. La carrera más concurrida dentro de las de Diseño es Diseño Gráfico, con 4 mil inscripciones por año; Diseño Digital y Multimedia tienen alrededor de 500 inscripciones por año y Diseño de videojuegos, 200.
is_diseño = df_evolucion_carreras["carrera_grupo"]=="Diseño"
df_diseño = df_evolucion_carreras[is_diseño]
fig = px.line(df_diseño, x="anio", y="inscripciones_mujeres_pct", color='Carrera_normalizada', color_discrete_sequence=px.colors.qualitative.Light24, labels={"anio" : "Año", "inscripciones_mujeres_pct" : "Porcentaje Mujeres Inscrptas", "Carrera_normalizada" : "Carrera Normalizada", "nuevos_inscriptos_total": "Total Inscripciones"}, hover_data=["anio","Carrera_normalizada","inscripciones_mujeres_pct","nuevos_inscriptos_total"])
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout(legend_orientation="h")
fig.update_layout(legend=dict(x=-.1, y=1.2))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_traces(mode='lines+markers')
fig.layout.yaxis.title="Mujeres Inscriptas (Grupo=Diseño)"
fig.layout.yaxis.tickformat= ',.0%'
fig
Las Exactas
Como se analizó anteriormente, según los datos recolectados, las carreras agrupadas en Exactas tienen aproximadamente mitad de estudiantes mujeres y mitad varones. En este grupo se observa que en Matemática las mujeres inscriptas varían entre un 60% y 50%. Química tiene un 65% de mujeres y Física es la carrera con mayor predominancia masculina ya que cuenta con menos del 30% de mujeres inscriptas. El grupo Exactas cuenta con un bajo número de inscriptos por año, como se graficó anteriormente. Al realizar un desglose del grupo se puede ver que se inscriben alrededor de dos mil personas en Química, menos de mil en Matemática, 750 en Física y solo 250 en Ciencias de la Atmósfera en todo el país. Sobre los egresos, por año se reciben alrededor de 500 personas en Química, 130 en Matemática, 200 en Física y 10 en Ciencias de la Atmósfera.
Las carreras relacionadas a las Ciencias de la Computación son Ciencias Exactas pero fueron agrupadas dentro de Informáticas para analizarlas de forma específica.
is_exactas = df_evolucion_carreras["carrera_grupo"]=="Exactas"
df_exactas = df_evolucion_carreras[is_exactas]
fig = px.line(df_exactas, x="anio", y="inscripciones_mujeres_pct", color='Carrera_normalizada', color_discrete_sequence=px.colors.qualitative.Light24, labels={"anio" : "Año", "inscripciones_mujeres_pct" : "Porcentaje Mujeres Inscrptas", "Carrera_normalizada" : "Carrera Normalizada", "nuevos_inscriptos_total": "Total Inscripciones"}, hover_data=["anio","Carrera_normalizada","inscripciones_mujeres_pct","nuevos_inscriptos_total"])
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout(legend_orientation="h")
fig.update_layout(legend=dict(x=-.1, y=1.2))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_traces(mode='lines+markers')
fig.layout.yaxis.title="Mujeres Inscriptas (Grupo=Exactas)"
fig.layout.yaxis.tickformat= ',.0%'
fig
Las Ingenierías
El grupo de Ingeniería, al igual que las careras relacionadas a la Informática, cuenta con un gran número de personas inscriptas, alrededor de 35 mil por año. Sin embargo, la distribución de género no es homogénea como en otros grupos. Ingeniería en Alimentos es la carrera de este grupo con una mayoría de estudiantes mujeres (el 60%). Ingeniería química tiene paridad de género y el resto de las Ingenierías tienen menos de 4 mujeres cada 10 estudiantes. Agrimensura, Civil e Industrial tienen 3 mujeres de cada 10. Y las que cuentan con más estudiantes varones son Electrónica, Mecánica, Eléctrica y Electromecánica con menos de 1 mujer cada 10 estudiantes. Telecomunicaciones cuenta con alrededor del 15% de estudiantes mujeres, lo cual coincide, como se analizará a continuación, con el porcentaje de mujeres en Informática.
Con respecto a la cantidad de personas inscriptas, la que cuenta con un número mayor es Ingeniería Industrial, con 7.500 por año. La sigue Ingeniería Civil, con 5.400. Las demás carreras de Ingeniería tienen menos de 3.000 inscripciones por año y las menos convocantes son Agrimensura, Naval, Telecomunicaciones y Alimentos, con menos de 400 inscripciones por año cada una en todo el país. Sobre los egresos, la proporción se mantiene: todos los años egresan 1.800 personas de carreras relacionadas a la Ingeniería Industrial; 1.200 de Ingeniería Civil; alrededor de 700 de Electrónica, Química y Mecánica y menos de 300 de cada una de las restantes.
is_ing = df_evolucion_carreras["carrera_grupo"]=="Ingenieria"
df_ingenieria = df_evolucion_carreras[is_ing]
fig = px.line(df_ingenieria, x="anio", y="inscripciones_mujeres_pct", color='Carrera_normalizada', color_discrete_sequence=px.colors.qualitative.Light24, labels={"anio" : "Año", "inscripciones_mujeres_pct" : "Porcentaje Mujeres Inscrptas", "Carrera_normalizada" : "Carrera Normalizada", "nuevos_inscriptos_total": "Total Inscripciones"}, hover_data=["anio","Carrera_normalizada","inscripciones_mujeres_pct","nuevos_inscriptos_total"])
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout(legend_orientation="h")
fig.update_layout(legend=dict(x=-.1, y=1.2))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_traces(mode='lines+markers')
fig.layout.yaxis.tickformat= ',.0%'
fig.layout.yaxis.title="Mujeres Inscriptas (Grupo=Ingenieria)"
fig
Las Informáticas
La información sobre este grupo de carreras es de gran relevancia para el trabajo que Chicas en Tecnología realiza con el objetivo de contribuir a cerrar la brecha de género en el ámbito emprendedor tecnológico. En este caso se realizó el agrupamiento de carreras según la guía del sitio http://www.estudiarcomputacion.gob.ar/que-carrera, a continuación se reproduce a qué se refiere cada grupo. Para el presente análisis no se realizó una segmentación por nivel (pregrado, grado, posgrado) pero esa diferenciación puede ser abordada en análisis posteriores.
Ingenierías
: Las carreras que brindan este título suelen tener materias en común con otras ingenierías, tales como Física, Química y algunas materias avanzadas de matemáticas. Existen dos grandes grupos de ingenierías relacionadas con el mundo de la Computación. Por un lado están
Ingeniería en Sistemas, Ingeniería en Sistemas de Información e Ingeniería en Informática
que se orientan más al software y sus aplicaciones. Y por el otro lado, está
Ingeniería en Computación
que pone el acento en el hardware, su diseño, funcionamiento e interacción con el software. Cuando el título se refiere a
"Sistemas de Información" (sea para una Ingeniería o una Licenciatura)
suele contener materias relacionadas con el análisis de las necesidades y procesos de las organizaciones, la manera de mejorarlos, adaptarlos a nuevas necesidades, etc. Algunos ejemplos de los temas que abordan son el funcionamiento de las empresas y organizaciones, la gestión de los recursos humanos, el planeamiento estratégico, y cómo se vinculan todo estos asuntos con los sistemas informáticos.
Licenciaturas:
Las carreras con el nombre de Licenciatura no suelen incluir materias como Física, Química y otras que las Ingenierías comparten.
Licenciatura en Ciencias de la Computación
: Son carreras más orientadas hacia los fundamentos teóricos de las Ciencias de la Computación. Eso no significa que sus egresados no puedan dedicarse a la práctica profesional, sino que el énfasis está en entender la teoría que está por detrás de la práctica, algo que muchas veces es necesario para ciertos desarrollos originales o innovadores. Por ejemplo, uno puede aprender muchos lenguajes de programación, pero en una carrera de Ciencias de la Computación va a entender mejor cómo se diseña y construye un lenguaje de programación.
Licenciatura en Sistemas/Sistemas de la Información o Informática:
El foco de estas carreras suele estar en el desarrollo de sistemas de software. También se ven temas tales como bases de datos, organización de computadoras, sistemas operativos y programación entre otros. Si bien se estudian las bases teóricas de las cosas, se coloca el énfasis en analizar las tecnologías disponibles y sus distintas aplicaciones.
Análisis por género y por carrera en Informática
Al analizar el gráfico con la segmentación por género en cada carrera del grupo Informática el primer dato que se hace evidente es la escala. Hay carreras en las que las estudiantes inscriptas son 3 ó 4 de cada 10 varones. Y en algunos casos hay menos de 2 mujeres cada 10 personas inscriptas. Se destaca por su poco porcentaje de mujeres (solo 1 de cada 10) la carrera Ingeniería en Computación que, como se mencionó anteriormente, está más relacionada con el hardware. Se puede ver que no hay diferencias significativas en la proporción de mujeres en las Ingenierías y las Licenciaturas: las licenciaturas en Ciencias de la Computación, las Ingenierías Informáticas y en/de Sistemas, las relacionadas a los Sistemas de Información y las Licenciaturas en Sistemas/Informática, todas ellas oscilan entre el 14% y el 18 % en todos los años.
is_informatica = df_evolucion_carreras["carrera_grupo"]=="Informatica"
df_informatica = df_evolucion_carreras[is_informatica]
fig = px.line(df_informatica, x="anio", y="inscripciones_mujeres_pct", color='Carrera_normalizada', color_discrete_sequence=px.colors.qualitative.Light24, labels={"anio" : "Año", "inscripciones_mujeres_pct" : "Porcentaje Mujeres Inscrptas", "Carrera_normalizada" : "Carrera Normalizada", "nuevos_inscriptos_total": "Total Inscripciones"}, hover_data=["anio","Carrera_normalizada","inscripciones_mujeres_pct","nuevos_inscriptos_total"])
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout(legend_orientation="h")
fig.update_layout(legend=dict(x=-.1, y=1.2))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_traces(mode='lines+markers')
fig.update_layout(height=600)
fig.layout.yaxis.tickformat= ',.0%'
fig.layout.yaxis.title="Mujeres Inscriptas (Grupo=Informatica)"
fig
Análisis de popularidad por carrera en Informática
En cambio, cuando se analiza la cantidad de inscripciones totales por año, se ve que la mayoría de las inscripciones se concentra en las carreras relacionadas con los Sistemas de Información (con nueve mil inscripciones por año), que están vinculadas con la gestión de procesos de organizaciones y empresas. Le siguen las Ingenierías en Sistemas/Informática (ocho mil) y las Licenciaturas en Sistemas/Informática (seis mil), vinculadas con el desarrollo, gestión y aplicaciones de software. En cambio, las más teóricas, como las Ciencias de la Computación, tienen dos mil inscripciones por año en todo el país. Y las más cercanas al hardware y la electrónica, como Ingeniería Informática, tienen menos de mil quinientas inscripciones.
fig = px.line(df_informatica, x="anio", y="nuevos_inscriptos_total", color='Carrera_normalizada', color_discrete_sequence=px.colors.qualitative.Light24, labels={"anio" : "Año", "inscripciones_mujeres_pct" : "Porcentaje Mujeres Inscrptas", "Carrera_normalizada" : "Carrera Normalizada", "nuevos_inscriptos_total": "Total Inscripciones"}, hover_data=["anio","Carrera_normalizada","inscripciones_mujeres_pct","nuevos_inscriptos_total"])
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout(legend_orientation="h")
fig.update_layout(legend=dict(x=-.1, y=1.2))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_traces(mode='lines+markers')
fig.update_layout(height=600)
fig.layout.yaxis.title="Cantidad Mujeres Inscriptas (Grupo=Informatica)"
fig
Nuevas inscripciones en carreras de Informática por género
Egresos por carrera en Informática
A continuación se incluye el gráfico de egresos por carrera:
fig = px.line(df_informatica, x="anio", y="egresados_total", color='Carrera_normalizada', color_discrete_sequence=px.colors.qualitative.Light24, labels={"anio" : "Año", "egresados_total" : "Egresos Totales", "Carrera_normalizada" : "Carrera Normalizada"})
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout(legend_orientation="h")
fig.update_layout(legend=dict(x=-.1, y=1.2))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.update_traces(mode='lines+markers')
fig.update_layout(height=600)
fig.layout.yaxis.title="Cantidad Mujeres Egresadas (Grupo=Informatica)"
fig
Las excepciones
Uno de los enfoques del presente análisis consistió en resaltar el caso de las especializaciones en Ciencias de Datos porque tienen un porcentaje de mujeres mayor que el resto de las carreras. Al ser una especialidad puede ser relevante entender si las mujeres en Sistemas la eligen en mayor proporción o si mujeres de otras disciplinas llegan al área desde otras especialidades. En cualquier escenario se trata de un caso interesante para resaltar y seguir estudiando sobre qué elementos (contenido, modalidad, comunicación, aplicaciones, formatos de cursada) causan este fenómeno.
Algo similar ocurre con los profesorados en estas especialidades: así como en las carreras de Educación el grupo de estudiantes cuenta con un 75% de mujeres, pero en la especialidad en Tecnología educativa esa representación decrece al 60%, en el caso de los profesorados dentro de Informática se pasa de un 15% de mujeres en el grupo en general a un 25% en los profesorados.
Las universidades y carreras con más inscripciones en Informática
A continuación se analizará brevemente la distribución por carrera y por universidad de las disciplinas relacionadas a la Informática.
Para el presente análisis se tomó el año 2017 como testigo para el análisis y graficamos las 20 Carreras con más inscripciones, agrupadas por Universidades.
Cabe aclarar también que, en el caso en el que las instituciones ofrezcan más de una carrera en Informática, se toma la suma de las inscripciones anuales a las carreras de este grupo. Sería interesante en un análisis posterior realizar también la distinción por carrera normalizada.
cp /visualizacion_carreras/data/output/carreras_universidad_evolucion_genero.csv /results
df_evolucion_carreras = pd.read_csv(carreras_universidad_evolucion_genero.csv)
is_informatica = df_evolucion_carreras["carrera_grupo"]=="Informatica"
df_informatica_universidades = df_evolucion_carreras[is_informatica]
#tomamos año 2017 como indicador
anio_2017 = df_informatica_universidades["anio"]==2017
df_informatica_2017_universidades = df_informatica_universidades[anio_2017]
#Ordeno por numero de inscripciones y tomo top 20
df_informatica_2017_universidades = df_informatica_2017_universidades.nlargest(20, "nuevos_inscriptos_total")
df_informatica_2017_universidades= df_informatica_2017_universidades.reset_index()
fig = px.bar(df_informatica_2017_universidades, x="nuevos_inscriptos_total", y="institucion_nombre_new", color= "Carrera_normalizada", labels={"institucion_nombre_new" : "Institucion", "Carrera_normalizada" : "Carrera Normalizada", "nuevos_inscriptos_total": "Nuevas Inscripciones por Año"}, hover_data=['institucion_nombre_new', "nuevos_inscriptos_total", "Carrera_normalizada"], orientation='h')
fig.update_yaxes(categoryorder= "total ascending")
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout(legend_orientation="h")
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Institucion=", "")))
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.layout.yaxis.title=None
fig.layout.xaxis.title=None
fig.update_layout(title="Ranking Universidades con más inscripciones en Informatica 2017", xaxis_title=None, yaxis_title=None)
fig
La Universidad Tecnológica Nacional (UTN) es la que cuenta con el mayor número de inscripciones, 9770 inscripciones en 2017, más del doble que la siguiente, la Universidad de Buenos Aires, con aproximadamente 4100 inscripciones.
Cabe preguntarse a qué se debe que la UTN tenga más inscripciones que el resto de las instituciones. Una causa potencial tiene que ver con cómo están estructurados los datos. La Universidad Tecnológica Nacional tiene más de 30 Facultades Regionales (como, por ejemplo, Santa Fe, Córdoba, Resistencia, Chubut, etc) en donde se estudian las diferentes carreras que esta casa de estudios dicta. Para el presente análisis se decidió separar las Facultades Regionales. El dataset original no separa esta información en diferentes columnas sino que agrupa en el campo "Unidad Académica" valores como "Departamento de Ciencias Sociales" en el caso de Universidades con una sola sede y "Facultad Regional Córdoba" para el caso de la UTN, otras universidades entregan en estos campos valores como "Departamento de Humanidades y Ciencias Sociales - Sede Mar del Plata" o "Escuela de Economía y Negocios - San Isidro". Originalmente la información provista por las instituciones no separaba la sede física del departamento o unidad académica. Chicas en Tecnología decidió realizar esta normalización manualmente para el caso de la Universidad Tecnológica Nacional ya que se trata de una de las universidades más populares para estudiar Tecnología, tema de primordial interés para la organización. El caso será analizado en la sección Geolocalización.
Mujeres por universidad en Informática
Para el mismo grupo de carerras (año 2017, las 20 carreras con más inscripiciones) nos interesa analizar cuál es el porcentaje de mujeres de cada una, por lo que para el mismo grupo de datos, graficamos en este caso el porcentaje de mujeres inscriptas.
fig = px.bar(df_informatica_2017_universidades, x="inscripciones_mujeres_pct", y="institucion_nombre_new", color= "Carrera_normalizada", labels={"institucion_nombre_new" : "Institucion", "inscripciones_mujeres_pct" : "Promedio Porcentaje Mujeres Inscriptas", "Carrera_normalizada" : "Carrera Normalizada", "nuevos_inscriptos_total": "Nuevas Inscripciones 2017"}, barmode='group', hover_data=['institucion_nombre_new', 'inscripciones_mujeres_pct', "nuevos_inscriptos_total","Carrera_normalizada"], orientation='h')
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Carrera Normalizada=", "")))
fig.update_layout(legend_orientation="h")
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Institucion=", "")))
fig.update_layout({'plot_bgcolor': "#fafafa",})
fig.layout.xaxis.tickformat= ',.0%'
fig.layout.yaxis.title=None
fig.layout.xaxis.title=None
fig.update_layout(title="Mujeres en Informática - 20 carreras con más inscripciones - 2017", xaxis_title=None, yaxis_title=None)
fig
En el gráfico se observa que son pocas las Universidades y carreras que superan el 15% de mujeres, destacándose la Universidad de Jujuy, la de General Sarmiento y la Universidad Nacional de Córdoba como las las que tienen mayores porcentajes de mujeres.
Cabe aclarar que decidimos evaluar los porcentajes de mujeres en las carreras más grandes. Queda pendiente analizar si las carreras más chicas presentan mayores porcentajes que las analizadas.
Por provincia
En base a los datos anteriores se avanzó en el análisis de la proporción de inscripciones de mujeres en distintas partes del territorio argentino. Como ya se había relevado en el informe Mujeres Programadoras, algunas instituciones (como la Universidad Nacional de La Rioja, la Universidad de La Matanza o la Universidad de Salta) tienen porcentajes de mujeres más altos que el promedio. Para tener información actualizada a nivel nacional se buscó visualizar la distribución de mujeres en carreras de Informática en cada una de las provincias argentinas y analizar si hay provincias donde las carreras relacionadas a la Informática cuentan con más (o menos) inscripciones de mujeres.
Como se mencionó anteriormente, la UTN entrega los datos de sus Facultades Regionales unificados. Para poder hacer el análisis regional se procedió a la separación de cada ubicación geográfica para poder entender si las diferencias de proporciones de mujeres inscriptas está asociada a una cuestión regional o no.
Para poder realizar este gráfico se eligió visualizar cada una de las universidades de forma puntual, sin agruparlas, para poder tener un esquema sobre cómo se distribuye la oferta académica de las carreras relacionadas con Informática. Por otro lado, no se aplicó un filtro por un número mínimo de inscripciones, por lo que hay carreras que tienen menos de 10 inscripciones al año y, por ende, la variación en porcentaje de mujeres puede ser alta.
cp /visualizacion_carreras/data/output/alumnos_por_universidad_geo.csv /results
df_evolucion_carreras = pd.read_csv(alumnos_por_universidad_geo.csv)
is_informatica = df_evolucion_carreras["carrera_grupo"]=="Informatica"
df_informatica_universidades = df_evolucion_carreras[is_informatica]
#tomamos año 2017 como indicador
anio_2017 = df_informatica_universidades["anio"]==2017
df_informatica_2017_universidades = df_informatica_universidades[anio_2017]
#Agrupamos por Unidad Académica y tomamos el promedio de las
df_universdades_por_carrera = df_informatica_universidades.groupby(["institucion_nombre_unidad_academica"]).mean()
df_universdades_por_carrera= df_universdades_por_carrera.reset_index()
px.set_mapbox_access_token("pk.eyJ1IjoiY2Fyb2hhZGFkIiwiYSI6ImNrYW16c2QxMDA2ZjQycG9nb2xxbTZ2cXIifQ.V2z4hDO4rmd39ZKAIi0Byw")
fig = px.scatter_mapbox(df_universdades_por_carrera, lat="lat", lon="lon", color="inscripciones_mujeres_pct", hover_data=['institucion_nombre_unidad_academica', "nuevos_inscriptos_total","inscripciones_mujeres_pct"], labels={"institucion_nombre_unidad_academica" : "Institucion", "inscripciones_mujeres_pct" : "Porcentaje Mujeres Inscriptas", "Carrera_normalizada" : "Carrera Normalizada", "nuevos_inscriptos_total": "Promedio Nuevas Inscripciones por Año"}, size_max=15, zoom=4)
fig.for_each_trace(lambda t: t.update(name=t.name.replace("Institucion=", "")))
fig.update_layout(height=900)
fig.update_layout(title="Mapa Instituciones Informática", geo_scope='south america')
fig
¿Qué sigue?
A través de sus investigaciones y relevamientos Chicas en Tecnología busca favorecer el debate, las acciones y el posicionamiento en la agenda pública de los temas que contribuyen a reducir la brecha de género en tecnología en la región. Como se planteó inicialmente, el objetivo de este proyecto es que otras personas y organizaciones puedan hacer uso de las visualizaciones realizadas con el dataset relevado por CET. Esto constituye un punto de partida desde el cual la organización espera que la información generada pueda servir como material de consulta, apoyo o complemento de nuevas investigaciones, artículos académicos y periodísticos, informes y otras iniciativas que aborden la problemática relevada. En un contexto como el actual, en el que la tecnología impacta en todos los aspectos de la vida, queda al descubierto también que las mujeres no forman parte de los equipos que piensan, diseñan y crean esa tecnología. Para que las soluciones tecnológicas que atraviesan la cotidianidad de las personas desde los más diversos ámbitos sean más representativas de las necesidades de las personas que las usan, inclusivas, justas y eficientes resulta determinante que las mujeres sean protagonistas en esos desarrollos.
Al tratarse de una base de datos abierta y de una plataforma que promueve el trabajo colaborativo, los gráficos aquí presentados pueden ser enriquecidos, mejorados y actualizados por todas las personas que quieran ser parte de este proceso de socialización de la información. Chicas en Tecnología busca que este proyecto sirva para potenciar la creación, publicación y circulación de información para visibilizar los desafíos actuales en materia de brecha de género en tecnología y los posibles caminos para contribuir a reducir esa brecha. Solo a través de un trabajo conjunto y sostenido en el tiempo entre todos los actores sociales involucrados será posible asumir la construcción de un ecosistema diverso e inclusivo.