SciELO - Scientific Electronic Library Online

 
 issue18Generation Z. Health effects associated with the use of technologyA quick look at Bayesian Inference author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Article

Indicators

    Related links

    • Have no cited articlesCited by SciELO
    • Have no similar articlesSimilars in SciELO

    Bookmark

    Revista Varianza

    Print version ISSN 9876-6789

    Revista Varianza  no.18 La Paz Oct. 2021

     

    ARTÍCULOS DE INVESTIGACIÓN

     

    Modelo logístico multinomial condiciones socioeconómicas de las personas que habitan en la ciudad de El Alto

     

    Multinomial logistic model socioeconomic conditions of people that inhabit in El Alto city

     

     

    M. Sc. Fernando Rivero Suguiura1,*
    * Instituto de Estadística Teórica y Aplicada - UMSA, La Paz - Bolivia
    friverosuguiura2004@gmail. com
    Artículo recibido: 2021-08-05     Artículo aceptado: 2021-09-13

     

     


    Resumen

    El objetivo es investigar las condiciones de vida de las personas que habitan en la ciudad de El Alto de La Paz, a partir de la referencia de algunas variables demográficas y socioeconómicas como son: edad, nivel de educación, seguridad alimentaria, ingreso, gasto mensual y ocupación, con la aplicación del modelo logístico multinomial que clasifica a la población en nivel socioeconómico alto, medio y bajo. Además, el modelo permite la medición probabilística de pertenecer a dichas categorías con mayor o menor influencia.

    Palabras clave: Condiciones socioeconómicas, modelo logístico multinomial, ciudad de El Alto.


    Abstract

    The objective is to investígate the living conditions of people living in El Alto city, located in the department of La Paz, based on the reference of some demographic and socioeconomic variables such as: age, education level, food security, income, monthly expenditure and oceupation, implicating the multinomial logistic model that classifies the population into high, médium and low socioeconomic level. In addition, the model allows the probabilistic measurement of belonging to these categories with greater or lesser influence.

    Keywords: Socioeconomics conditions, multinomial logistic model, El Alto city


     

     

    INTRODUCCIÓN

    La ciudad de El Alto se encuentra ubicada en la meseta del altiplano norte del departamento de La Paz en la cuarta sección de la provincia Murillo, al pie de la cordillera oriental a 12 km del centro de la ciudad de La Paz a una altura de 4.500 m.s.n.m. y tiene una extensión de 387,56 km2, según el Plan de Desarrollo de la Ciudad de El Alto. Ciudad creada el 6 de marzo de 1985 como urbe segunda más poblada de Bolivia con una población aproximada de 943.600 habitantes, donde el 51,4% son mujeres y el 48,6% son hombres, de estos, el 54,2% es menor de 30 años, según los datos del último Censo de Población y Vivienda (INE, 2012).

    Respecto al sector educativo, en 2018, la población matriculada en los niveles inicial, primaria y secundaria en la educación pública y privada llegó a 300.927 personas. El porcentaje de matriculados que cumplieron con el requisito mínimo para un curso inmediatamente superior (tasa de promoción) alcanzo al 97%, los que abandonaron la escuela o colegio (tasa de abandono) fueron 1,6% y los que no cumplieron con la nota mínima de aprobación (tasa de reprobados) 1,3%. (El Alto en Cifras 2020 INE).

    El Alto se caracteriza por su dinámico movimiento comercial y productivo basado en el crecimiento del sector de la micro, pequeña y mediana empresa y artesanía productiva, calificada por ello, como una de la segunda ciudad industrial de Bolivia (Chuquimia, 2008), tal es el caso de la feria 16 de Julio que se instaura domingo tras domingo ofreciendo el comercio de productos desde un alfiler hasta una maquinaria industrial sofisticada.

    En la ciudad de El Alto se encuentran las principales vías de salida de las mercancías de exportación, siendo estas el Aeropuerto Internacional y la Zona Franca Industrial y Comercial. El movimiento de mercancías por estas aduanas llegó a un total de 1.047,7 millones de dólares en 2019, siendo la principal vía de salida el Aeropuerto de El Alto (INE, 2020).

    El Producto Interno Bruto (PIB) per cápita de esta ciudad alcanza aproximadamente al 25% del PIB del departamento de La Paz que es aproximadamente de 16.558 millones de bolivianos y al 6% del PIB de Bolivia (Estrategia de Desarrollo Económico Local e Informe Estadístico del municipio de El Alto, 2020). Este porcentaje de aporte del PIB, especialmente proviene del sector servicios, comercio y transporte, como el de manufactura en: minería, refinerías de petróleo, fábricas de azúcar y aceite, entre otros.

    En el tema de pobreza, la ciudad de El Alto es una de las ciudades metrópoli más pobres de Bolivia, según el índice de Necesidades Básicas Insatisfechas (NBI) del Censo de Población y Vivienda del año 1992 al 2001, según el INE, reduce de un 73,8% a un 66% y posteriormente en el año 2005 alcanza a un 47,5%. Respecto a la desigualdad, se relaciona principalmente con la falta de servicios básicos como: alcantarillado, agua, energía eléctrica y vivienda propia.

    En el tema de desigualdad habitacional, el índice de Calidad de Vivienda reporta que el 52% de la población alteña cuenta con una vivienda catalogada como de nivel alto, el 47% de nivel medio y 1% de nivel bajo, sin embargo, este incremento en calidad no deja en expectativa la desigualdad de los habitantes de esta ciudad en este tema (INE, 2005).

    A todo lo anteriormente señalado, la investigación se concluye con un estudio de las condiciones de vida de los pobladores de la ciudad de El Alto en base a información recopilada de la Encuesta de Hogares del INE Bolivia año 2018, mediante la aplicación del modelo logístico multinomial. Este último permite un análisis exhaustivo del tema de acuerdo al uso de algunas características sociales y económicas.

     

    METODOLOGÍA

    Modelo logístico multinomial

    La regresión logística multinomial, es utilizada en modelos con variable dependiente de tipo nominal con más de dos categorías y es una extensión multivariante del modelo logístico binario. Las variables independientes pueden ser tanto continuas como categóricas o no métricas. En esta aplicación sobre las condiciones socioeconómicas de las personas habitantes de la ciudad de El Alto, se construye la variable dependiente condición socioeconómica, mediante el método multivariante cluster análisis no jerárquico con tres categorías (alta, media y baja). Esta variable o factor, considera las subvariables tales como: a) materiales de construcción de la vivienda (techo, piso, pared); b) hacinamiento (número de personas por dormitorio); c) agua y saneamiento básico (disponibilidad de agua, alcantarillado, baño); d) insumos energéticos (combustible, energía eléctrica entre otros); e) salud y educación (acceso, atención de la salud por personal calificado, años de escolaridad y alfabetismo), fuente Encuesta de Hogares (INE, 2018).

    Formulación del modelo

    Sea la variable dependiente Y categórica nominal politómica con probabilidades pp p2, ... ,pk para las k categorías que compone la variable Y. Si se requiere el análisis del efecto de variables independientes X1, X2, ..., Xp se define el modelo siguiente:

    haciendo algunos cambnios en (01) se tiene

    donde pc es la probabilidad de que la categoria Y=c; c = 1, 2, ...,k se dé, con

    Además, en (02) se tiene que:

    Donde X es la matriz de dimensión n x (p+1) de observaciones y variables, como β que es el vector de dimensión p+1 de parámetros a estimar en el modelo. Si qc = 1 - pc es la probabilidad complementaria de pc, tal que pc + qc= 1, entonces:

    resulta de reemplazar (02) en (03). Luego

    La razón entre pc/qc se define como la razón

    considerándose un modelo no lineal.

    Método de estimación de máxima verosimilitud

    La función de verosimilitud, está definida como:

    Aplicando a la función de razón de verosimilitud generalizada se tiene

    La maximización en (04) es equivalente a minimizar (05). Por la complejidad de la función Λ, esta se resuelve por métodos numéricos de forma iterativa para los estimadores del vector β .

    Significación del modelo

    Para probar si el modelo es significativo o no en su estructura global, se aplica el test estadístico de contraste de hipótesis, teniendo en cuenta que la diferencia entre el valor inicial y el valor final de la función de razón de verosimilitud generalizada Λ tiene distribución Chi-cuadrado con grados de libertad igual al número de regresores multiplicado por el número de categorías menos uno.

    La hipótesis nula (H0) de que no existe efecto de las variables regresoras, contra la hipótesis alterna (H1), se define como:

    El p' valor del test para H0 vendrá dado por la siguiente probabilidad

    se rechaza H0 si p' <0,05.

     

    RESULTADOS

    Aplicación del modelo logístico multinomial

    La aplicación del modelo logístico multinomial definido anteriormente, considera las siguientes variables.

    La variable 1 (Clasific_Soc) corresponde ser la dependiente del modelo con las categorías: 1 (Alto), 2 (Medio) y 3 (Bajo). Las siguientes variables de la 2 a la 5 son de condición categórica: género, edad, nivel de educación y seguridad alimentaria. Las variables 6 a la 8, son cuantitativas o llamadas también covariables tales como: ingreso y gasto del hogar mensual en Bs y el porcentaje de ocupados, estas últimas no categorizadas.

    Especificación del modelo

    Inicialmente se realiza la categorización de las variables independientes o explicativas para ser consideradas en el modelo logístico. Para ello, en algunos casos, se crean variables ficticias o dummy (dicotómicas), 1 si pertenece a la categoría y 0 cuando no pertenece, es decir:

    X3: Porcentaje de ocupados del hogar

    X4: Género mujer

    X5: Género hombre

    X6. Edad entre 0 y 19 años

    X7: Edad entre 20 y 39 años

    X8: Edad de 40 y más años

    X9: Nivel educación ninguno

    X10: Nivel educación básico

    X11: Nivel educación superior

    X12: Seguridad alimentaria (inseguridad severa y moderada)

    X13: Seguridad alimentaria (inseguridad leve)

    X14: Seguridad alimentaria (seguridad)

    Las variables cuantitativas ingreso y gasto del hogar siguen un proceso de estandarización para que sean comparables ambas, mediante el siguiente método de transformación de variable Zj

    Donde Xj tiene la media y desviación estándar muestral ( ). Por lo que se cuenta con las siguientes dos variables:

    Z1: Ingreso del hogar mensual en Bs, estándar

    Z2: Gasto del hogar mensual en Bs, estándar

    Luego el modelo que genera las probabilidades de categorización, está dado por:

    con la variable dependiente formulada como Y=Xβ

    luego (07) se puede escribir como

    X la matriz de dimensión n=3.965 (muestra de hogares ciudad de El Alto) por p+1=15 de variables, y β el vector de dimensión p+1=15 de parámetros a estimar en el modelo. Sin embargo, la regresión logística multinomial presenta k-1 modelos desagregados de acuerdo a la cantidad de categorías menos uno que tiene la variable dependiente Y, en este caso dos modelos diferentes.

    Estimación y significación del modelo logistíco

    Aplicando la función de razón de verosimilitud generalizada (Λ), expresión (05), y realizando la maximización por métodos numéricos de forma iterativa, se consigue estimar el modelo logístico con coeficientes .

    Se han probado diferentes combinaciones de variables categóricas y covariables, además de la inclusión y exclusión de éstas, para determinar el modelo más significativo a los datos analizados. Se han analizado 12 modelos posibles con las 14 variables y categorías descritas anteriormente, donde la variable Genero con categorías mujer y hombre parecían influyentes en el resultado, sin embargo, se pudo observar que dicha variable no es relevante en el modelo, ignorándola y quedando con el modelo final estimado en su versión 12, siguiente.

    Los estimadores de β para las variables y categorías consideradas en los modelos, se presentan en la segunda columna de la Tabla No. 2. Se puede observar, que el coeficiente independiente es negativo cercano a -3 para el primer caso, sin embargo para el segundo caso es -0.24 y poco significativo individualmente. Los coeficientes estimados de las variables cuantitativas Ingreso y Gasto estándar (Z1, Z2), para ambas opciones de la variable dependiente Y de los modelos Bajo y Medio, son negativos y significativos según el estadístico de contraste de Wald (valor alto) y probabilidad Sig, presente en la 6ta columna que se mide por debajo de 0,05. La variable porcentaje de ocupados por hogar (X3) en ambas categorías de Y son relativamente cercanas a cero, pero significativas en ambos modelos, de acuerdo a los estadísticos Wald y Sig.

    La columna siete de la tabla No. 2 presenta los siguientes resultados más relevantes:

    •     exp(β) = exp (2,038 ) = 7,673       

    Para el primer modelo, significa que pertenecer a una condición socioeconómica baja frente a una condición socioeconómica alta, de personas que no tienen ninguna educación, están en 7,7 veces peor de los que tienen educación básica. El valor real se encuentra en el intervalo de confianza al 95% entre (4,9; 12,1). Asimismo, se tiene que

    •     exp( β ) = exp ( 1,829 ) = 6,229

    para el primer modelo, significa que pertenecer a una condición socioeconómica baja frente a una condición socioeconómica alta, de personas que tienen inseguridad alimentaria severa y moderada, están en 6,2 veces peor de los que tienen inseguridad alimentaria leve. Otro caso, se tiene

    •     exp ( β ) = exp (0,78) = 2,182

    para el segundo modelo, que pertenecer a una condición socioeconómica media frente a una condición socioeconómica alta, de personas que no tienen ninguna educación, están en 2,2 veces peor de los que tienen educación básica. El valor real se encuentra en el intervalo de confianza al 95% entre (1,6; 3,1). Finalmente

    •     exp ( β ) = exp ( 0,809 ) = 2,246

    para el segundo modelo, significa que pertenecer a una condición socioeconómica media frente auna condición socioeconómica alta, de personas que tienen inseguridad alimentaria severa y moderada, están en 2,2 veces peor de los que tienen inseguridad alimentaria leve.

    Así se pueden interpretar los demás coeficientes exp (β) con la compañía de sus intervalos de confianza.

    Test de hipótesis de β individual

    La prueba individual de los coeficientes β, se realiza en base al estadístico de Wald como se presenta en la Tabla No. 2, definido como

    Se supone distribución Normal en β

    El estadístico de contraste de hipótesis, denominado de Wald, es

    Se rechaza HQ si Es decir, si el estadístico de Wald es superior al valor chi-cuadrado con 1 grado de libertad.

    Los coeficientes estimados de β a nivel de variables con categoría Baja de la variable dependiente Socioeconómica (Y), son significativos excepto el coeficiente Edad recodificada = 1 no es significativo y las categorías de las variables en el caso 0b, para el modelo desagregado denominado categoría Baja.

    Para la cualidad de Y Media, se observa que las categorías de los coeficientes de Intersección y Edad recodificada = 1 no son significativos con Sig por encima de 0,05 y los identificados con 0b de la Tabla No. 2.

    La Tabla No. 3, proporciona información sobre el ajuste de los modelos en forma global mediante la hipótesis de que los coeficientes de β sean significativos de manera conjunta, es decir:

    El nivel de significación p' valor del test para H0 vendrá dado por la siguiente probabilidad

    se rechaza H0 si p'<0,05.

    La Tabla No. 3 en la columna Pruebas de la razón de verosimilitud demuestra que el valor del estadístico chi cuadrado es alto con p^' (Sig) tendiente a cero, por lo cual los modelos de las cualidades Baja y Media son altamente significativas de manera conjunta. El criterio de Akaike (AIC) justifica la medición relativa de calidad de ajuste de los modelos empleados.

    Los modelos estimados, son:

    • Cualidad Baja modelo 1

    Según lo señalado, la razón entre la probabilidad se define como

    • Cualidad Media modelo 2

    De igual manera la razón entre la probabilidad es

    Donde las probabilidades de ocurrencia de clasificación cualidad baja, media y alta se determinan mediante las siguientes relaciones:

    y la probabilidad de se determina por el complemento de las anteriores, es decir

    tal que

    Clasificación observada y esperada

    La Tabla No. 4 muestra la clasificación de individuos que fueron observados en las categorías condición socioeconómica alta, media y baja y los valores esperados por el modelo logístico multinomial, es decir:

    De acuerdo a la Tabla N° 4, el 53,4% de las personas clasifican tanto en observación y pronostico por el modelo en las categorías baja, media y alta de condición socioeconómica. El 80,6% de las personas están en la categoría media observada y el 75,7% en la misma categoría de acuerdo al modelo. Hay un 46,6% de la población que no son coincidentes en la observación y proyección del modelo, sin embargo, no dejan de aproximarse a los resultados en la mayoría de los casos en un 99%.

     

    RESULTADOS Y DISCUSIÓN

    Al no contar con una variable categórica observada dependiente para el modelo logístico, denominada condición socioeconómica en los niveles alto, medio y bajo, se ha procedido a su determinación a partir del análisis cluster no jerárquico en base a las variables socioeconómicas: materiales de construcción de la vivienda, hacinamiento, agua y saneamiento básico, y otras, que son parte de las que componen el índice de necesidades básicas insatisfechas para la medición de pobreza estructural. Se puede notar luego, que al modelo logístico se le incorpora variables independientes que tienen relación con las condiciones de vida y pobreza, como: la ocupación, nivel de educación, seguridad alimentaria y otras que son de característica coyuntural como el ingreso y gasto. Al respecto, existe una predicción del modelo en un 53% en las categorías socioeconómicas de alta, media y baja para la población de la ciudad de El Alto con respecto a lo que presenta la variable observada. Sin embargo, esto no basta pues también el modelo proporciona la medición de la probabilidad de pertenecer a dichas categorías.

     

    RECOMENDACIÓN

    A lo referido anteriormente, es fundamental ampliar el análisis no solo a la categorización que pertenece la población en condición alta, media y baja; sino agrupar, además, cada condición, por intervalos de medición de probabilidad dadas por el modelo logístico e investigar a profundidad, cuál o cuáles de las variables influyen más a la determinación de la condición socioeconómica de la persona.

     

    NOTAS

    1 Docente de la carrera de Estadística, Facultad de Ciencias Puras y Naturales de la UMSA. Consultor en muestreo, censos y análisis estadístico en entidades nacionales e internacionales. Magister en Ciencias de la Estadística. https://orcid.org/0000-0001-9095-7778

     

    REFERENCIAS BIBLIOGRÁFICAS

    Agresti,A. (1990). Categorical Data Analysis. John Wiley and Sons. New York.        [ Links ]

    Arguello, O. CELADE. Desarrollo Económico, Políticas Sociales y Población. CELADE.        [ Links ]

    Arguello, O. (1980). Pobreza y Desarrollo. Características Socio-Demográficas délas Familias Pobres en Venezuela. Santiago de Chile. Centro Latinoamericano de Demografía.        [ Links ]

    Arias, O, S., Bendini, M. (2006). Evaluación de la pobreza en Bolivia: Sentando las bases para un crecimiento a favor de los pobres. Programa Operacional y Analítico de la Región de América Latina y el Caribe, Banco Mundial.        [ Links ]

    Ayaviri, N, D., Alarcón, L, S. (2014). Clasificación socioeconómica de los municipios de Bolivia. Universidad Católica Boliviana "San Pablo", Unidad Académica Regional Cochabamba.        [ Links ]

    Banco de Desarrollo de America Latina (CAF). (2017). Agua y saneamiento en el Estado Plurinacional de Bolivia. Buenos Aires.        [ Links ]

    CELADE. (2002). Vulnerabilidad sociodemográfica: viejos y nuevos riesgos para comunidades, hogares y personas. Brasilia. CEPAL.        [ Links ]

    CELADE. (2005). Dinámica demográfica y desarrollo en América Latina y el Caribe. Santiago de Chile. CEPAL.        [ Links ]

    Cox, D. R. & Snell, E. J. (1989). The Analysis of Binary Data. Chapman and Hall. London.        [ Links ]

    De la Fuente, F, S. (2011), Análisis de conglomerados. Universidad Autónoma de Madrid (UAM).        [ Links ]

    UDAPE (2019). Dossier de Estadísticas Económicas y Sociales. Vol. 29. La Paz.        [ Links ]

    INE Bolivia (2020). El Alto en cifras.        [ Links ]

    Estado Plurinacional deBolivia, Ministerio de Educación. (2010). Ley de la Educación "Avelino Siñani-Elizardo Pérez".        [ Links ]

    Gobierno Autónomo Municipal de El Alto. Secretaría Municipal de Desarrollo Económico del municipio de El Alto (2018). Fortalecimiento a las iniciativas económicas: Localización Distrital. El Alto.        [ Links ]

    Hair, J, F., Anderson, R, E., Tatham, R, L., Black, W,C. (1999). Análisis Multivariante. Madrid, España. Editorial Prentice Hall.        [ Links ]

    Hosmer, D. W. & Lemeshow, S. (1989). Applied Logistic Regression. Wiley Interscience. New York.        [ Links ]

    Informe Estadístico del Municipio de El Alto (2020). Ministerio de Desarrollo Productivo y Económico Plural.        [ Links ]

    Johnson, R. A. Applied Multivariate Statistical Analysis. Prentice Hall. New Jersey.        [ Links ]

    López, J.L. (2011). La Ecuación Diferencial Logística.        [ Links ]

    Medina, M. E. (2003). Modelos de elección discreta.        [ Links ]

    Menard, S. (2000). Coefficients of Determination for Múltiple Logistic Regression Analysis. The American Statistician.        [ Links ]

    Osorio, D. (2009). Planteamiento del Modelo Logístico Multinomial a travéz de la Función Canónica de Enlace de la Familia Exponencial.        [ Links ]

    Peña, Daniel (2002). Análisis de Datos Multivariantes. Me Graw Hill.

    Quispe, G.M. (2009 ). La formación de la ciudad de El Alto y sus consecuencias. Tesis Doctoral, Universidad Autónoma de Madrid.        [ Links ]

    UDAPE: Unidad de Análisis de Políticas Sociales y Económicas, INE: Instituto Nacional de Estadística. (2018). Migración interna en Bolivia. Organización Internacional para las Migraciones (OIM).        [ Links ]

    Uriel, E., Aldas, J. (2005). Análisis multivariante aplicado. Madrid, España. Editorial Thomson.        [ Links ]

    Villaroel, P, Hernani-Limarino, W. (2013). La evolución de la pobreza en Bolivia: un enfoque multidimensional. Revista Latinoamericana de Desarrollo Económico (LAJED).        [ Links ]