Busca en el Blog

sábado, 4 de mayo de 2024

Concepto de función de regresión poblacional (FRP)

 De la anterior exposición, y en especial de las fi guras 2.1 y 2.2, es claro que cada media condicional E(Y | Xi) es función de Xi, donde Xi es un valor dado de X. Simbólicamente,

E(Y | Xi ) = f (Xi ) (2.2.1)

donde ƒ(Xi) denota alguna función de la variable explicativa X. En el ejemplo, E(Y | Xi) es una función lineal de Xi. La ecuación (2.2.1) se conoce como función de esperanza condicional (FEC), función de regresión poblacional (FRP) o regresión poblacional (RP), para abreviar.  Dicha función sólo denota que el valor esperado de la distribución de Y dada Xi se relaciona funcionalmente con Xi. En otras palabras, dice cómo la media o respuesta promedio de Y varía con X.

¿Qué forma adopta la función ƒ(Xi)? Esta pregunta es importante porque en una situación real no disponemos de toda la población para efectuar el análisis. La forma funcional de la FRP es por consiguiente una pregunta empírica, aunque en casos específicos la teoría tiene algo que decir. Por ejemplo, un economista puede plantear que el consumo manifiesta una relación lineal con el ingreso. Por tanto, como primera aproximación o hipótesis de trabajo, podemos suponer que la FRP E(Y | Xi) es una función lineal de Xi, del tipo

E(Y | Xi ) = β1 + β2Xi (2.2.2)

donde β1 y β2 son parámetros no conocidos pero fijos que se denominan coeficientes de regresión; β1 y β2 se conocen también como coeficientes de intersección y de pendiente, respectivamente. La ecuación (2.2.1) se conoce como función de regresión poblacional lineal. En la bibliografía aparecen otras expresiones, como modelo de regresión poblacional lineal o sólo regresión poblacional lineal. En lo sucesivo, consideraremos sinónimos los términos regresión, ecuación de regresión y modelo de regresión.

En el análisis de regresión, la idea es estimar las FRP como la ecuación (2.2.2); es decir, estimar los valores no conocidos de β1 y β2 con base en las observaciones de Y y X. Veremos este tema con más detalle en el capítulo 3.

viernes, 19 de abril de 2024

Análisis de regresión con dos variables - Ejemplo hipotético

 Como se señaló en la sección 1.2, el análisis de regresión se relaciona en gran medida con la estimación o predicción de la media (de la población) o valor promedio de la variable dependiente, con base en los valores conocidos o fijos de las variables explicativas.2 Para entender esto, consideremos los datos de la tabla 2.1. Estos datos se refieren a la población total de 60 familias de una comunidad hipotética, así como a su ingreso semanal (X) y su gasto de consumo semanal (Y ), en dólares. Las 60 familias se dividen en 10 grupos de ingresos (de 80 dólares a 260); asimismo, aparecen los gastos semanales de cada familia de los diversos grupos. Por consiguiente, hay 10 valores fi jos de X y los correspondientes valores Y para cada valor X; así, hay 10 subpoblaciones Y.

Se observa una variación considerable en el consumo semanal de cada grupo de ingreso, lo cual se aprecia con claridad en la fi gura 2.1. No obstante, el panorama general es que, a pesar de la variabilidad del consumo semanal en cada nivel de ingreso considerado, en promedio, el consumo semanal se incrementa a medida que aumenta el ingreso. Para verificar lo anterior, en la  tabla 2.1 se proporciona la media, o promedio, del consumo semanal que corresponde a cada uno de los 10 niveles de ingresos. Así, al nivel de ingreso de 80 dólares le corresponde una media de consumo igual a 65 dólares, pero para el nivel de 200, la media es de 137. En total hay 10 valores medios para las 10 subpoblaciones de Y. A estos valores medios se les llama valores esperados condicionales, en virtud de que dependen de los valores de la variable (condicional) X. En forma simbólica, se denotan con E(Y | X ), lo cual se lee como el valor esperado de Y, dado el valor de X (ver también la tabla 2.2).


Es importante distinguir entre los valores esperados condicionales y el valor esperado incondicional del consumo semanal, E(Y). Si sumamos los consumos semanales de las 60 familias que forman la población y dividimos este número entre 60, obtendremos la cantidad de 121.20 dólares ($7 272/60), que es el valor de la media incondicional, o esperada, del consumo semanal, E(Y ); es incondicional porque, para obtener esta cifra, obviamos los niveles de ingreso de las diversas familias.3 Como es lógico, los diferentes valores esperados condicionales de Y de la  tabla 2.1 varían respecto del valor esperado incondicional de Y, igual a 121.20 dólares. Cuando se plantea la pregunta “¿cuál es el valor esperado del consumo semanal de una familia?”, la respuesta es 121.20 dólares (la media incondicional). Pero si se pregunta “¿cuál es el valor esperado del consumo semanal de una familia cuyo ingreso mensual es de 140 dólares?”, la respuesta es 101 (la media condicional). En otras palabras, a la pregunta “¿cuál es la mejor predicción (media) del gasto semanal de las familias con un ingreso semanal de 140 dólares?”, la respuesta es 101 dólares. Por consiguiente, conocer el nivel de ingreso permite predecir mejor el valor medio del consumo que si se ignora esa información.4 Tal vez sea ésta la esencia del análisis de regresión, como lo descubriremos a lo largo de este libro.



Los puntos oscuros dentro de círculos de la fi gura 2.1 muestran los valores medios condicionales de Y, graficados en función de los diferentes valores de X. Al unir esos valores obtenemos la línea de regresión poblacional (LRP), o, más general, la curva de regresión poblacional (CRP).5 Con palabras más sencillas, es la regresión de Y sobre X. El adjetivo “poblacional” se debe a que en este ejemplo trabajamos con la población total de 60 familias. Por supuesto, en realidad una población tendría más familias.

Así, desde el punto de vista geométrico, una curva de regresión poblacional es tan sólo el lugar geométrico de las medias condicionales de la variable dependiente para los valores fijos de la(s) variable(s) explicativa(s). En palabras más simples, es la curva que conecta las medias de las subpoblaciones de Y que corresponden a los valores dados de la regresora X. Lo anterior se ve de manera gráfica en la fi gura 2.2.

Esta figura muestra que para cada X (es decir, el nivel de ingresos) existe una población de valores Y (consumo semanal) que se distribuyen alrededor de la media (condicional) de dichos valores Y. Por simplicidad, suponemos que tales valores Y están distribuidos simétricamente alrededor de sus respectivos valores medios (condicionales). Asimismo, la recta (o curva) de regresión pasa a través de los mencionados valores medios (condicionales).

Con estos antecedentes, es útil para el lector leer de nuevo la definición de regresión de la sección 1.2.

linea de regresion
37

miércoles, 17 de abril de 2024

Análisis de regresión con dos variables: algunas ideas básicas

 En el capítulo 1 vimos el concepto de regresión en términos generales. En este capítulo lo abordamos más formalmente. De manera específi ca, este capítulo y los tres siguientes introducirán al lector a la teoría básica del análisis de regresión más sencillo posible, es decir, la regresión bivariable o con dos variables, en la cual la variable dependiente (la regresada) se relaciona con una sola variable explicativa (la regresora). Consideremos primero este caso no necesariamente por su adecuación práctica, sino porque presenta las ideas fundamentales del análisis de regresión de la manera más sencilla posible, y algunas de estas ideas pueden ilustrarse con diagramas bidimensionales. Además, como veremos, el análisis de regresión múltiple, más general, en el que la regresada se relaciona con más de una regresora, es, en muchos sentidos, una extensión lógica del caso de dos variables.

34