Busca en el Blog

viernes, 19 de abril de 2024

Análisis de regresión con dos variables - Ejemplo hipotético

 Como se señaló en la sección 1.2, el análisis de regresión se relaciona en gran medida con la estimación o predicción de la media (de la población) o valor promedio de la variable dependiente, con base en los valores conocidos o fijos de las variables explicativas.2 Para entender esto, consideremos los datos de la tabla 2.1. Estos datos se refieren a la población total de 60 familias de una comunidad hipotética, así como a su ingreso semanal (X) y su gasto de consumo semanal (Y ), en dólares. Las 60 familias se dividen en 10 grupos de ingresos (de 80 dólares a 260); asimismo, aparecen los gastos semanales de cada familia de los diversos grupos. Por consiguiente, hay 10 valores fi jos de X y los correspondientes valores Y para cada valor X; así, hay 10 subpoblaciones Y.

Se observa una variación considerable en el consumo semanal de cada grupo de ingreso, lo cual se aprecia con claridad en la fi gura 2.1. No obstante, el panorama general es que, a pesar de la variabilidad del consumo semanal en cada nivel de ingreso considerado, en promedio, el consumo semanal se incrementa a medida que aumenta el ingreso. Para verificar lo anterior, en la  tabla 2.1 se proporciona la media, o promedio, del consumo semanal que corresponde a cada uno de los 10 niveles de ingresos. Así, al nivel de ingreso de 80 dólares le corresponde una media de consumo igual a 65 dólares, pero para el nivel de 200, la media es de 137. En total hay 10 valores medios para las 10 subpoblaciones de Y. A estos valores medios se les llama valores esperados condicionales, en virtud de que dependen de los valores de la variable (condicional) X. En forma simbólica, se denotan con E(Y | X ), lo cual se lee como el valor esperado de Y, dado el valor de X (ver también la tabla 2.2).


Es importante distinguir entre los valores esperados condicionales y el valor esperado incondicional del consumo semanal, E(Y). Si sumamos los consumos semanales de las 60 familias que forman la población y dividimos este número entre 60, obtendremos la cantidad de 121.20 dólares ($7 272/60), que es el valor de la media incondicional, o esperada, del consumo semanal, E(Y ); es incondicional porque, para obtener esta cifra, obviamos los niveles de ingreso de las diversas familias.3 Como es lógico, los diferentes valores esperados condicionales de Y de la  tabla 2.1 varían respecto del valor esperado incondicional de Y, igual a 121.20 dólares. Cuando se plantea la pregunta “¿cuál es el valor esperado del consumo semanal de una familia?”, la respuesta es 121.20 dólares (la media incondicional). Pero si se pregunta “¿cuál es el valor esperado del consumo semanal de una familia cuyo ingreso mensual es de 140 dólares?”, la respuesta es 101 (la media condicional). En otras palabras, a la pregunta “¿cuál es la mejor predicción (media) del gasto semanal de las familias con un ingreso semanal de 140 dólares?”, la respuesta es 101 dólares. Por consiguiente, conocer el nivel de ingreso permite predecir mejor el valor medio del consumo que si se ignora esa información.4 Tal vez sea ésta la esencia del análisis de regresión, como lo descubriremos a lo largo de este libro.



Los puntos oscuros dentro de círculos de la fi gura 2.1 muestran los valores medios condicionales de Y, graficados en función de los diferentes valores de X. Al unir esos valores obtenemos la línea de regresión poblacional (LRP), o, más general, la curva de regresión poblacional (CRP).5 Con palabras más sencillas, es la regresión de Y sobre X. El adjetivo “poblacional” se debe a que en este ejemplo trabajamos con la población total de 60 familias. Por supuesto, en realidad una población tendría más familias.

Así, desde el punto de vista geométrico, una curva de regresión poblacional es tan sólo el lugar geométrico de las medias condicionales de la variable dependiente para los valores fijos de la(s) variable(s) explicativa(s). En palabras más simples, es la curva que conecta las medias de las subpoblaciones de Y que corresponden a los valores dados de la regresora X. Lo anterior se ve de manera gráfica en la fi gura 2.2.

Esta figura muestra que para cada X (es decir, el nivel de ingresos) existe una población de valores Y (consumo semanal) que se distribuyen alrededor de la media (condicional) de dichos valores Y. Por simplicidad, suponemos que tales valores Y están distribuidos simétricamente alrededor de sus respectivos valores medios (condicionales). Asimismo, la recta (o curva) de regresión pasa a través de los mencionados valores medios (condicionales).

Con estos antecedentes, es útil para el lector leer de nuevo la definición de regresión de la sección 1.2.

linea de regresion
37

miércoles, 17 de abril de 2024

Análisis de regresión con dos variables: algunas ideas básicas

 En el capítulo 1 vimos el concepto de regresión en términos generales. En este capítulo lo abordamos más formalmente. De manera específi ca, este capítulo y los tres siguientes introducirán al lector a la teoría básica del análisis de regresión más sencillo posible, es decir, la regresión bivariable o con dos variables, en la cual la variable dependiente (la regresada) se relaciona con una sola variable explicativa (la regresora). Consideremos primero este caso no necesariamente por su adecuación práctica, sino porque presenta las ideas fundamentales del análisis de regresión de la manera más sencilla posible, y algunas de estas ideas pueden ilustrarse con diagramas bidimensionales. Además, como veremos, el análisis de regresión múltiple, más general, en el que la regresada se relaciona con más de una regresora, es, en muchos sentidos, una extensión lógica del caso de dos variables.

34