Como se señaló en la sección 1.2, el análisis de regresión se relaciona en gran medida con la estimación o predicción de la media (de la población) o valor promedio de la variable dependiente, con base en los valores conocidos o fijos de las variables explicativas.2 Para entender esto, consideremos los datos de la tabla 2.1. Estos datos se refieren a la población total de 60 familias de una comunidad hipotética, así como a su ingreso semanal (X) y su gasto de consumo semanal (Y ), en dólares. Las 60 familias se dividen en 10 grupos de ingresos (de 80 dólares a 260); asimismo, aparecen los gastos semanales de cada familia de los diversos grupos. Por consiguiente, hay 10 valores fi jos de X y los correspondientes valores Y para cada valor X; así, hay 10 subpoblaciones Y.
Se observa una variación considerable en el consumo semanal de cada grupo de ingreso, lo cual se aprecia con claridad en la fi gura 2.1. No obstante, el panorama general es que, a pesar de la variabilidad del consumo semanal en cada nivel de ingreso considerado, en promedio, el consumo semanal se incrementa a medida que aumenta el ingreso. Para verificar lo anterior, en la tabla 2.1 se proporciona la media, o promedio, del consumo semanal que corresponde a cada uno de los 10 niveles de ingresos. Así, al nivel de ingreso de 80 dólares le corresponde una media de consumo igual a 65 dólares, pero para el nivel de 200, la media es de 137. En total hay 10 valores medios para las 10 subpoblaciones de Y. A estos valores medios se les llama valores esperados condicionales, en virtud de que dependen de los valores de la variable (condicional) X. En forma simbólica, se denotan con E(Y | X ), lo cual se lee como el valor esperado de Y, dado el valor de X (ver también la tabla 2.2).
Es importante distinguir entre los valores esperados condicionales y el valor esperado incondicional del consumo semanal, E(Y). Si sumamos los consumos semanales de las 60 familias que forman la población y dividimos este número entre 60, obtendremos la cantidad de 121.20 dólares ($7 272/60), que es el valor de la media incondicional, o esperada, del consumo semanal, E(Y ); es incondicional porque, para obtener esta cifra, obviamos los niveles de ingreso de las diversas familias.3 Como es lógico, los diferentes valores esperados condicionales de Y de la tabla 2.1 varían respecto del valor esperado incondicional de Y, igual a 121.20 dólares. Cuando se plantea la pregunta “¿cuál es el valor esperado del consumo semanal de una familia?”, la respuesta es 121.20 dólares (la media incondicional). Pero si se pregunta “¿cuál es el valor esperado del consumo semanal de una familia cuyo ingreso mensual es de 140 dólares?”, la respuesta es 101 (la media condicional). En otras palabras, a la pregunta “¿cuál es la mejor predicción (media) del gasto semanal de las familias con un ingreso semanal de 140 dólares?”, la respuesta es 101 dólares. Por consiguiente, conocer el nivel de ingreso permite predecir mejor el valor medio del consumo que si se ignora esa información.4 Tal vez sea ésta la esencia del análisis de regresión, como lo descubriremos a lo largo de este libro.
Los puntos oscuros dentro de círculos de la fi gura 2.1 muestran los valores medios condicionales de Y, graficados en función de los diferentes valores de X. Al unir esos valores obtenemos la línea de regresión poblacional (LRP), o, más general, la curva de regresión poblacional (CRP).5 Con palabras más sencillas, es la regresión de Y sobre X. El adjetivo “poblacional” se debe a que en este ejemplo trabajamos con la población total de 60 familias. Por supuesto, en realidad una población tendría más familias.
Así, desde el punto de vista geométrico, una curva de regresión poblacional es tan sólo el lugar geométrico de las medias condicionales de la variable dependiente para los valores fijos de la(s) variable(s) explicativa(s). En palabras más simples, es la curva que conecta las medias de las subpoblaciones de Y que corresponden a los valores dados de la regresora X. Lo anterior se ve de manera gráfica en la fi gura 2.2.
Esta figura muestra que para cada X (es decir, el nivel de ingresos) existe una población de valores Y (consumo semanal) que se distribuyen alrededor de la media (condicional) de dichos valores Y. Por simplicidad, suponemos que tales valores Y están distribuidos simétricamente alrededor de sus respectivos valores medios (condicionales). Asimismo, la recta (o curva) de regresión pasa a través de los mencionados valores medios (condicionales).
Con estos antecedentes, es útil para el lector leer de nuevo la definición de regresión de la sección 1.2.
37