SciELO - Scientific Electronic Library Online

 
 número7Marcos de Muestreo ImperfectosMétodos de Predicción en Situaciones Límite índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Articulo

Indicadores

    Links relacionados

    • No hay articulos citadosCitado por SciELO
    • No hay articulos similaresSimilares en SciELO

    Bookmark

    Revista Varianza

    versión impresa ISSN 9876-6789

    Revista Varianza  n.7 La Paz nov. 2010

     

    INVESTIGACIÓN

     

    Regresión por Mínimos Cuadrados Parciales

     

     

    Autor: Lic.. Dindo Valdéz Blanco

     

     


     

     

    1. Introducción

    La regresión por mínimos cuadrados parciales, denominado regresión PLS (partial least squares), es una técnica que combina dos técnicas del análisis multivariante; el análisis de componentes principales y la regresión lineal múltiple.

    La regresión PLS se utiliza generalmente en dos situaciones: cuando se tiene un gran número de variables predictoras, el número de variables independientes puede ser incluso mayor al número de observaciones, y/o cuando existe multicolinealidad entre las variables predictoras.

     

    2. El Análisis Multivariante

    Se considera el caso de un modelo lineal con una variable dependiente y m variables independientes, representados por la ecuación.

    3. El método de Mínimos Cuadrados Parciales (PLS)

    La suposición básica de la regresión PLS es que el sistema depende de un número pequeño de variables instrumentales llamadas variables latentes. Este concepto es similar al de componentes principales. Las variables latentes son estimadas como combinaciones lineales de las variables observadas, como se explica más adelante. En los modelos PLS, se establece una representación de la matriz X en término de dichas variables latentes:

    donde T representa los "scores" (término que puede ser traducido como "resultados"); y la matriz P es denominada "loadings" (término que puede ser traducido como "cargas"). De esta manera la matriz X queda descompuesta en un número de "variables latentes", cada una caracterizada por un vector t y un vector

    De esta forma, es posible representar la matriz X por una matriz T con un número menor de columnas. Esta descomposición se muestra en la ecuación (3).

    Si se incluyen todas las variables latentes, el error es cero

    El modelo PLS se desarrolla de modo que las primeras variables latentessean las más importantes para explicar el vector Y en la muestra. El número de variables latentes necesarias para explicar la matriz X es una medida de la complejidad del modelo. Otros vectores calculados durante la etapa de construcción del modelo son el vector w (llamado "pesos" de X), y el vector b (denominado "sensibilidades"), La relación entre el vector Y y la matriz T es:

    Donde b se calcula para minimizar los errores F. El vector Y es estimado usando los coeficientes de b previamente estimados por mínimos cuadrados:

    Si se toman en cuenta todas las variables latentes (a=m), los coeficientes del vector b son idénticos a los coeficientes del modelo de regresión lineal múltiple:

    4. Ventajas y desventajas del método PLS

    Como se ha indicado, el método PLS obtiene a partir de la matriz X, una matriz T cuyos vectores son linealmente independientes, definiendo un sistema ortogonal. De tal forma que, en los casos en que existan un número mayor de variables independientes en relación al número de observaciones (m>n) se produce una reducción dei modelo. Por otro lado, en los casos en que exista colinealidad o redundancia entre las variables, la matriz T se usa para reducir dichas variables o sintetizarlas. Por consecuencia es posible minimizar el riesgo de cometer un error estadístico al descartar información importante.

    Una desventaja es que la regresión PLS es un modelo correlativo y no causal, en el sentido de que los modelos obtenidos no ofrecen información fundamental acerca del fenómeno estudiado, puesto que no se trabaja con las variables originales.

     

    5. Regresión por Componentes Principales

    La regresión por componentes principales consiste de dos etapas. Primero se realiza el análisis de componentes principales de la matriz de datos X, y luego se utilizan estos componentes principales como las variables independientes de la función de regresión final que se construye utilizando la técnica de mínimos cuadrados entre los datos proyectados y la variable respuesta Y. El hecho que los componentes principales son ortogonales resuelve el problema de multicolinealidad.

    La desventaja de este método radica en que los componentes principales son calculados para explicar a X y no toman en cuenta a la variable dependiente, puesto que estas se calculan solo con la matriz de datos de X. Por lo tanto nada garantiza que los componentes principales los cuales "explican" X, también sean relevantes para explicar a Y.

    6. Ejemplo de aplicación

    Para ilustrar las diferencias entre la regresión PLS y la regresión por componentes principales utilizaremos datos simulados con 9 observaciones, 1 variable dependiente y 9 variables independientes. La matriz de correlaciones entre las variables se muestra a continuación:

    Se observa la presencia de multicolinealidad entre las variables expiicativas y al mismo tiempo se tienen pocas observaciones. Aplicando la técnicade componentes principales para reducir la matriz X, se tienen los siguientes resultados en el Cuadro 2.

    Por tal razón se eligen los primeros 3 componentes y se aplica la regresión lineal múltiple para explicar a la variable respuesta en función de estas tres variables sintéticas, el cuadro siguiente muestra los resultados de la regresión múltiple con los tres componentes:

    Ahora se aplica la técnica de regresión PLS en el paquete estadístico Minitab 15.0 para windows, para determinar el número de componentes se utiliza la técnica de la validación cruzada (crossvalidation), llegando a resumir las 9 variables independientes en un solo componente artificial, los resultados de la regresión PLS se dan en el siguiente cuadro.

     

    7. Conclusiones

    En conclusión se observa que la regresión PLS brinda un mejor ajuste, y en comparación con la regresión por componentes principales la regresión PLS en este caso ha sintetizado la matriz X en una sola componente a diferencia de los tres componentes sintéticos de la regresión por componentes principales.

     

    8. Bibliografía

    [1] Mardia, K.V. (1997). "Análisis multivariante", Academic Press, London,        [ Links ]

    [2] M. Barker. (2003). "Partial least squares". Revista de Quimiometría, 17:166-173.        [ Links ]

    [3] Vega Carmen (2008). "Regresión por Mínimos Cuadrados Parciales con Aplicación en Regresión Logística". Tesis UMSA, Carrera de Estadística.        [ Links ]