Busca en el Blog

Mostrando las entradas con la etiqueta Análisis de Regresión con dos variables. Mostrar todas las entradas
Mostrando las entradas con la etiqueta Análisis de Regresión con dos variables. Mostrar todas las entradas

jueves, 24 de octubre de 2024

Significado del término lineal

 Como este texto se relaciona sobre todo con modelos lineales, como la ecuación (2.2.2), es esencial entender a cabalidad el término lineal, pues se interpreta de dos formas.

Linealidad en las variables

El primer significado, y tal vez el más “natural”, de linealidad es aquel en que la esperanza condicional de Y es una función lineal de Xi, como en la ecuación (2.2.2).6 Geométricamente, la curva de regresión en este caso es una recta. En esta interpretación, una función de regresión como E(Y | Xi ) = β1 + β2X2i no es una función lineal porque la variable X aparece elevada a una potencia o índice de 2.

Linealidad en los parámetros

La segunda interpretación de linealidad se presenta cuando la esperanza condicional de Y, E(Y | Xi), es una función lineal de los parámetros, los β; puede ser o no lineal en la variable X. 7 De acuerdo con esta interpretación, E(Y | Xi ) = β1 + β2X2 i es un modelo de regresión lineal (en el parámetro). Para ver lo anterior, supongamos que X tiene un valor de 3. Por tanto, E(Y | X = 3) = β1 + 9β2, ecuación a todas luces lineal en β1 y β2. En consecuencia, todos los modelos de la figura 2.3 son de regresión lineal; es decir, son modelos lineales en los parámetros.

Ahora consideremos el modelo E(Y | Xi ) = β1 + β2 2 Xi. Supongamos también que X = 3; así obtenemos E(Y | Xi ) = β1 + 3β22, que es no lineal respecto del parámetro β2. El anterior es un ejemplo de modelo de regresión no lineal (en el parámetro). Analizaremos dichos modelos en el capítulo 14.

De las dos interpretaciones de linealidad, la linealidad en los parámetros es pertinente para el desarrollo de la teoría de regresión que presentaremos en breve. Por consiguiente, en adelante, el término regresión “lineal” siempre significará una regresión lineal en los parámetros; los β (es decir, los parámetros) se elevan sólo a la primera potencia. Puede o no ser lineal en las variables explicativas X. Esquemáticamente tenemos la tabla 2.3. Así, E(Y | Xi) = β1 + β2 Xi , lineal en los parámetros igual que en las variables, es un modelo de regresión lineal (MRL), lo mismo que E(Y | Xi ) = β1 + β2X2i , lineal en los parámetros pero no lineal en la variable X.

Significado del término lineal

Significado del término lineal

sábado, 4 de mayo de 2024

Concepto de función de regresión poblacional (FRP)

 De la anterior exposición, y en especial de las fi guras 2.1 y 2.2, es claro que cada media condicional E(Y | Xi) es función de Xi, donde Xi es un valor dado de X. Simbólicamente,

E(Y | Xi ) = f (Xi ) (2.2.1)

donde ƒ(Xi) denota alguna función de la variable explicativa X. En el ejemplo, E(Y | Xi) es una función lineal de Xi. La ecuación (2.2.1) se conoce como función de esperanza condicional (FEC), función de regresión poblacional (FRP) o regresión poblacional (RP), para abreviar.  Dicha función sólo denota que el valor esperado de la distribución de Y dada Xi se relaciona funcionalmente con Xi. En otras palabras, dice cómo la media o respuesta promedio de Y varía con X.

¿Qué forma adopta la función ƒ(Xi)? Esta pregunta es importante porque en una situación real no disponemos de toda la población para efectuar el análisis. La forma funcional de la FRP es por consiguiente una pregunta empírica, aunque en casos específicos la teoría tiene algo que decir. Por ejemplo, un economista puede plantear que el consumo manifiesta una relación lineal con el ingreso. Por tanto, como primera aproximación o hipótesis de trabajo, podemos suponer que la FRP E(Y | Xi) es una función lineal de Xi, del tipo

E(Y | Xi ) = β1 + β2Xi (2.2.2)

donde β1 y β2 son parámetros no conocidos pero fijos que se denominan coeficientes de regresión; β1 y β2 se conocen también como coeficientes de intersección y de pendiente, respectivamente. La ecuación (2.2.1) se conoce como función de regresión poblacional lineal. En la bibliografía aparecen otras expresiones, como modelo de regresión poblacional lineal o sólo regresión poblacional lineal. En lo sucesivo, consideraremos sinónimos los términos regresión, ecuación de regresión y modelo de regresión.

En el análisis de regresión, la idea es estimar las FRP como la ecuación (2.2.2); es decir, estimar los valores no conocidos de β1 y β2 con base en las observaciones de Y y X. Veremos este tema con más detalle en el capítulo 3.

lunes, 21 de octubre de 2013

Coeficiente de determinación r²: Medida de la "Bondad del ajuste" (II)

Para calcular esta r², se procede de la siguiente forma: Recuérdese que

Yi = Yi + ûi

o expresado en formas de desviaciones

yi = yi + ûi

Donde se hace uso de (3.1.13) y de (3.1.14). Elevando al cuadrado  en ambos lados y sumando sobre la muestra, se obtiene:

puesto que Σyiûi = 0 (por qué?) y yi = β2xi.

Las diversas sumas de cuadrados que aparecen en (3.5.2) pueden ser descritas de la manera siguiente:  Σy²i =Σ(Yi-Y)² = variación total de los valores observados de Y con respecto a su media muestral, los cuales pueden  ser llamados suma total de cuadrados (STC). Σyi = Σ(Yi-Y)² = Σ(Yi-Y)² = β²2Σx²i = variación de los valores Y estimados alrededor de su media (Y=Y) que apropiadamente puede llamarse la suma de los cuadrados debida a la regresión [es decir, debida a la(s) variable(s) explicativa(s)], o explicada por ésta, o simplemente la suma explicada de cuadrados (SEC). Σu²i =  la variación residual o no explicada de los valores de Y alrededor de la línea de regresión, o simplemente la suma de residuales cuadrados (SRC). ASi, (3.5.2) es

STC = SEC + SRC

y muestra que la variación total en los valores Y observados alrededor del valor de su media puede ser dividida en dos partes, atribuible a la línea de regresión y la otra a fuerzas aleatorias puesto que no todas las observaciones Y caen sobre la línea ajustada. Geométricamente,se tiene la figura 3.10.



sábado, 12 de octubre de 2013

Qué tan realistas son los supuestos? (I)

La pregunta del millón de dólares es: Qué tan realistas son todos estos supuestos? La "realidad de los supuestos" es una pregunta que desde hace muchos años ha sido planteada en la filosofía de las ciencias. Algunos argumentan que no interesa si los supuestos son realistas. Lo que interesa son las predicciones basadas en esos supuestos. Entre quienes apoyan la "tesis de la irrelevancia de los supuestos" sobresale Milton Friedman. Para él, la irrealidad de los supuestos es una ventaja positiva: "para que una hipótesis sea importante... debe ser descriptivamente falsa en sus supuestos."

Uno puede no estar completamente de acuerdo con este punto de vista, pero recuérdese que en cualquier estudio científico se hacen ciertos supuestos porque ellos facilitan el desarrollo de la materia objeto de estudio en pasos graduales, no por que ellos sean necesariamente realistas en el sentido de que repliquen la realidad exactamente. Como lo anota un autor "... si la simplicidad es un criterio deseable en una buena teoría, todas las buenas teorías idealizan y sobresimplifican violentamente " 

La siguiente analogía puede ser utilidad aquí. Los estudiantes de economía generalmente son introducidos al modelo de competencia perfecta antes de haber sido introducidos a los modelos de competencia imperfecta tales como el monopolio y el oligopolio, debido a que las implicaciones derivadas de este modelos nos capacitan para apreciar mejor los modelos de competencia imperfecta y no por que el modelo de competencia perfecta sea necesariamente realista. !El MCRL en econometría es el equivalente al modelo de competencia perfecta en la teoría de precios!

viernes, 4 de octubre de 2013

Resumen y conclusiones del Análisis de Regresión con dos variables


  1. El concepto clave en el cual se basa el análisis de regresión es el de función de regresión problacional (FRP)
  2. Este blog trata con FRP lineales, es decir con regresiones que son lineales en los parámetros desconocidos. Éstas pueden ser o no lineales en la variable dependiente o regresada Y y la(s) variable(s) independiente(s) o regresor(es) X.
  3. Para propósitos empíricos, es la FRP estocástica la que importa. El término de perturbación estocástico ui juega un papel crítico en la estimación de la FRP.
  4. La FRP es un concepto idealizado, puesto que en la práctica raramente se tiene acceso al total de la población de interés. Generalmentel, se tiene sólo una muestra de observaciones de la población. Por consiguiente, uno utiliza la función de regresión muestral estocástica (FRM) para estimar la FRP.

Función de Regresión Muestral (FRM) (V)

Ahora obviamente, en la figura de abajo Yi sobreestima la verdadera E(Y|Xi) para Xi dado. De la misma manera, para cualquier Xi a la izquierda del punto A, la FRM subestimará la verdadera FRP. Pero el lector puede concluir fácilmente que tal sobre y subestimación del modelo poblacional es inevitable debido a las fluctuaciones muestrales.

La pregunta crítica es ahora: Dado que la FRM es apenas una aproximación de la FRP, se puede diseñar una regla o método que haga que esta aproximación se a lo más "ajustada" posible? En otras palabras, como se debe construir la FRM para que B1 y B2 estén tan "cerca' de los verdaderos B1 y B2 como sea posible aun cuando nunca se llegue a conocer los verdaderos B1 y B2?

La respuesta a esta pregunta ocupará gran parte de nuestra atención en los posts posteriores. Se advierte aquí que es posible desarrollar procedimientos que dicen cómo construir la FRM para reflejar la FRP tan fielmente como sea posible. Es fascinante considerar que esto pueda hacerse aun cuando realmente nunca se llegue a determinar la propia FRP.


jueves, 3 de octubre de 2013

Función de Regresión Muestral (FRM) (IV)

Para resumir, entonces, se halla que el objetivo principal en el análisis de regresión es estimar la FRP.


por que son más frecuentes los casos en que el análisis está basado en una muestra tomada de una población. Pero debido a fluctuaciones muestrales el estimado de la FRP basado en FRM es, en el mejor de los casos, una aproximación. Esta aproximación se muestra gráficamente en la figura del siguiente post.

Para X = Xi, una observación (muestral) Y = Yi En términos de la FRM, la Yi, observada puede ser expresada como



Función de Regresión Muestral (FRM) (III)

'


Adviértase que un estimador, conocido también como estadístico (muestral), es simplemente una regla, fórmula o método que dice cómo estimar el parámetro poblacional a partir de la información suministrada por la muestra disponible. Un valor numérico particular obtenida por el estimador en una aplicación es conocido como estimado.

Ahora, tal como se expresa la FRP en dos formas equivalentes, (2.2.2) y (2.4.2), se puede expresar la FRM (2.6.1) en su forma estocástica de la siguiente manera:


miércoles, 2 de octubre de 2013

Función de Regresión Muestral (FRM) (II)

Al graficar los datos de las tablas 2.4 y 2.5, se obtiene el diagrama de dispersión dado en la figura 2.3. En el diagrama de dispersión se han trazado dos líneas de regresión muestral con el fin de "ajsutar" las dispersiones razonablemente bien: FRM1 está basada en la primera muestra y FRM2 está basada en la segunda muestra. Cual de las dos líneas de regresión representa la línea de regresión poblacional "verdadera"? Si se evita la tentación de mirar la figura 2.1, que intencionalmente representa  la RP, no hay forma de estar absolutamente seguros de que alguna las lineas de regresión  mostradas en la figura 2.3 representa la línea (o curva) de regresión poblacional verdadera. Las líneas de regresión de la figura 2.3  se conocen como líneas de regresión muestral. Supuestamente éstas representan la línea de regresión poblacional, pero debido a fluctuaciones a fluctuaciones muestrales pueden ser consideradas en el mejor de los casos sólo como una aproximación de la verdadera RP En general, se obtendría NFRM diferentes para N muestra diferentes y estas FRM no necesariamente son iguales.

Ahora, en forma análoga a la FRP en la cual se basa la línea de regresión poblacional, se puede desarrollar el concepto de función de regresión muestral (FRM) para representar la línea de regresión muestral. La contraparte muestral de (2.2.2) puede escribirse como:


Función de Regresión Muestral (FRM) (I)

Hasta el momento se ha limitado la exposicion a los valores poblacionales de Y correspondientes a valores fijos de X. Deliberadamente se han evitado consideraciones muestrales (nótese que la informacion de la tabla 2.1 representa la población, no una muestra). Pero ya es hora de enfrentar los problemas muestrales, ya que en la práctica lo que se tiene al alcance no es más que una muestra de valores de Y que corresponden a algunos valores fijos de X. Por consiguiente la labor ahora es estimar la FRP con base en la información muestral.

A manera de ilustración, supóngase que no se conocía la población de la tabla 2.1 y que la única información que se tenía era una muestra de valores de Y seleccionada aleatoriamente para valores dados de X tal como se presenta en la tabla 2.4. A diferencia de la tabla 2.1, ahora se tiene sólo un valor de Y correspondiente a los valores de X; cada Y(dado Xi) en la tabla 2.4 es seleccionado aleatoriamente de Y similares correspondientes a los mismos Xi de la población de la tabla 2.1

La pregunta es: De la muestra de la tabla 2.4, se puede predecir el gasto de consumo semanal promedio Y para la población como un todo correspondiente a los valores de X seleccionados? En otras palabras , se puede estimar la forma FRP a partir de la información muestral? Como el lector seguramente sospecha, se puede no ser capaces de estimar la FRP en forma "precisa' debido a la fluctuaciones muestrales. Para ver esto, supóngase que se toma de la población de la tabla 2.1 otra muestra aleatoria, la cual se presenta en la tabla 2.5.


martes, 1 de octubre de 2013

Forma funcional incorrecta

Aún si se tienen variables teóricamente correctas, para explicar un fenómeno y se puede obtener información sobre ellas, muy frecuentemente no se conoce la forma de la relación funcional entre la variable dependiente y las variables explicativas. Es el gasto de consumo una función lineal (en variables) del ingreso o es una función no lineal (en variables)"? Si se trata de lo primero, Yi = B1 + B2Xi +ui es la relación funcional apropiada entre Y y X, pero el segundo caso, Yi = B1 + B2Xi + B3X²i + ui puede ser la forma funcional correcta. En los modelos de dos variables la forma funcional de la relación frecuentemente puede ser juzgada a partir del diagrama de dispersión. Pero en un modelo de regresión múltiple no es fácil determinar la forma funcional apropiada, puesto que no se puede visualizar gráficamente los diagramas de dispersión en dimensiones múltiples.

Por todas estas razones, las perturbaciones estocásticas ui, asumen un papel extremadamente crítico en el análisis de regresión. que se apreciará a medida que se progrese.

Principio de parsimonia.

Siguiendo el principio de la cuchilla de afeitar de Occam, nos gustaría mantener nuestro modelo de regresión lo más sencillo posible. Si podemos explicar "sustancialmente" el comportamiento de Y con dos o tres variables explicativas y si nuestra teoría no es lo suficientemente fuerte para sugerir otras variables que pudieran ser incluidas. por que introducir más variables? Permita que ui, represente todas las demás variables. Por supuesto, no se deben excluir variables relevantes e importantes sólo para mantener simple la forma del modelo de regresión.

lunes, 30 de septiembre de 2013

Variables próximas inadecuadas

A pesar de que el modelo de regresión clásico supone que las variables Y y X son medidas en formaprecisa, en la práctica los datos pueden estar plagados de errores de medición. Considérese , por ejemplo la teoria muy conocida de Milton Friedman de la función de consumo. El considera el consumo permanente (Yp) como función del ingreso permanente (Xp). Pero como la información sobre estas variables no es observable directamente, en la práctica se utilizan variables próximas, tales como el consumo observado (Y) y el ingreso observado (X). Puesto que las Y y las X observadas pueden no ser iguales a Yp y Xp, existe el problema de errores de medición. El término de perturbación u puede en este caso también representar entonces los errores de medición.

Aleatoriedad intrínseca en el comportamiento humano

Aun si tiene éxito en la introduccion en el modelo de todas las variables relevantes, hay posibilidad de que exista alguna aleatoriedad "intrinseca" en Y que no pueda ser explicada a pesar de todos los esfuerzos que se hagan. Las perturbaciones, u, pueden reflejar muy bien esta aleatoriedad intrínseca.


domingo, 29 de septiembre de 2013

Variables centrales vs. variables periféricas

Supóngase en el ejemplo consumo-ingreso que además del ingreso X1, hay otras variables que afectan también el gasto de consumo, como el número de hijos por familia X2, el sexo X3, la religión X4, la educación X5, y la región geográfica X6. Pero es muy posible que la influencia conjunta de todas o de algunas de estas variables pueda ser muy pequeña o a lo mejor no sistemática o aleatoria, y que desde el punto de vista práctico y por consideraciones de costo no se justifique su introducción explícita en el modelo. Uno espera que su efecto combinado pueda ser tratado como una variable aleatoria ui.

No disponibilidad de información

Aún se si sabe cuáles son algunas de las variables excluidas y se considera por consiguiente una regresión múltiple en lugar de una regresión simple, se puede no tener información cuantitativa sobre esas variables. Es una experiencia corriente en el análisis empírico que la información que idealmente se desearía tener, frecuentemente no esté disponible. Por ejemplo, en principio se podría introducir la riqueza familiar, como una variable explicativa adicional a la variable ingreso para explicar el gasto de consumo familiar. Pero desafortunadamente, la información sobre riqueza familiar por lo general no está disponible. Por consiguiente, se puede ver forzado a omitir la variable riqueza de nuestro modelo a pesar de su gran relevancia teórica en la explicación del gasto de consumo.


sábado, 28 de septiembre de 2013

Vaguedad de la Teoría

De existir una teoría que determine el comportamiento de Y, ésta puede estar incompleta y frecuentemente lo está. Podríamos saber con seguridad que el ingreso semanal X afecta el gasto de consumo semanal Y, pero se podría ignorar o no estar seguros sobre las demás variables que afectan a Y. Por consiguiente, ui, puede ser utilizada como sustituto de todas la variables excluidas u omitidas del modelo.

Significado del término "Perturbación Estocástica"

Como se anoto en la sección 2.4 el término "perturbación estocástica" ui es un sustituto para todas aquellas variables que son omitidas del modelo pero que, colectivamente, afectan a Y. La pregunta obvia es: Por qué no se introducen estas variables en el modelo explícitamente? Planteado de otra forma, Por qué no se desarrolla un modelo de regresión múltiple con tantas variables como sea posible?. las razones son muchas

viernes, 27 de septiembre de 2013

Cómo se interpreta Yi = E(Y|Xi) + ui ?

Se puede decir que el gasto de una familia individual, dado su nivel de ingresos, puede ser expresado como la suma de sus componentes: (1)E(Y|Xi), que es simplemente la media del gasto de consumo de todas las familias con el mismo nivel de ingresos. Este componente se conoce como, el componente sistemático, o determinístico, y (2) ui que es el componente aleatorio, o no sistemático. Se examinará en breve la naturaleza del término de perturbación estocástica, pero por el momento supóngase que es un término que sustituye o representa todas las variables omitidas o ignoradas que puedan afectar a Y pero que no están (o pueden no estar) incluidas en el modelo de regresión.

Si se supone que E(Y|Xi) es lineal en Xi, como en (2.2.2), la ecuación (2.4.1) puede escribirse como:



Así, el supuesto de que la línea de regresión pasa a través de las medias condicionales de Y implica que los valores de la media condicional de ui (condicionadas al valor dado de X) son cero.

De la exposición anterior es claro que (2.2.2) y (2.4.2) son formas equivalentes si E(ui|Xi) = 0. Pero la especificacion estocástica tiene la ventaja que muestra claramente otras variables además del ingreso, que afectan el gasto de consumo y que un gasto de consumo de familias individuales no puede ser explicado en su totalidad solamente por la(s) variable(s) incluidas en el modelo de regresión.


Especificación Estocástica de la FRP

Es claro que la figura 2.1 que a medida que el ingreso familiar aumenta, el gasto de consumo familiar en promedio, también aumenta. Pero, qué sucede con el gasto de consumo de una familia individual con relación a su nivel (fijo) de ingresos? Es obvio en la Tabla 2.1 y en la figura 2.1 que el gasto de consumo de una familia individual no necesariamente aumenta a medida que el nivel de ingresos es mayor. Por ejemplo, en la tabla 2.1, se observa que para el nivel de ingresos de US$100 existe una familia cuyo gasto de consumo de US$65 es menor que los gatos de consumo de dos familias cuyos ingreso semanal es solamente de U$80. Pero advierta que el gasto de consumo promedio de familias con un ingreso semanal de US$100 es mayor que el gasto de consumo promedio de familias con un ingreso semanal de US$80 ($77 Vs, US$65).

Entonces, qué podemos decir sobre la relación entre el gasto de consumo de una familia individual y un nivel dado de ingresos? Se ve en la figura 2.1, que dado el nivel de ingresos de Xi, el gasto de consumo de una familia individual está agrupado alrededor del consumo promedio de todas las familias en ese nivel de Xi, esto es, alrededor de su esperanza condicional. Por consiguiente, podemos expresar la desviación de un Yi individual alrededor de su valor esperado de la manera siguiente:

ui = Yi - E(Y|Xi)

o

Yi = E(Y|Xi) + ui

donde la desviación ui, es una variable aleatoria no observable que toma valores positivos o negativos. Técnicamente, ui, es conocida como perturbación estocástica o término de error estocástico.