Busca en el Blog

Mostrando las entradas con la etiqueta Regresión con dos variables. Mostrar todas las entradas
Mostrando las entradas con la etiqueta Regresión con dos variables. Mostrar todas las entradas

sábado, 31 de diciembre de 2022

Un ejemplo de un ejercicio que se resuelve por la Prueba de normalidad de Jarque-Bera (JB)

 La prueba de normalidad de Jarque-Bera (JB) es una prueba estadística que se utiliza para determinar si una muestra de datos sigue una distribución normal o no. Se basa en el hecho de que la distribución normal tiene una forma específica con una curva en campana y ciertos valores esperados para dos estadísticos de forma, conocidos como la kurtosis y la sesgo. La prueba de JB calcula estos estadísticos a partir de la muestra de datos y los compara con los valores esperados para la distribución normal. Si los valores observados son muy diferentes de los valores esperados, es probable que la muestra no siga una distribución normal.

A continuación te presento un ejemplo de cómo se podría utilizar la prueba de JB para determinar si una muestra de datos sigue una distribución normal o no.

Ejemplo:

Se tiene una muestra de 50 observaciones de la altura de una planta. Se desea determinar si la altura de la planta sigue una distribución normal o no.

Para realizar la prueba de JB, primero se calculan la kurtosis y el sesgo de la muestra:

Kurtosis = 3.12

Sesgo = -0.47

Luego, se comparan estos valores con los valores esperados para la distribución normal:

Kurtosis esperada para la distribución normal = 3

Sesgo esperado para la distribución normal = 0

Como se puede ver, el valor observado de la kurtosis es muy cercano al valor esperado para la distribución normal, mientras que el valor observado de sesgo es ligeramente menor que el valor esperado. Esto sugiere que la muestra de alturas de plantas podría seguir una distribución normal, aunque no se puede afirmar con certeza debido a la pequeña diferencia entre los valores observados y esperados.

Para obtener una conclusión más precisa, se podría utilizar el valor p obtenido de la prueba de JB. Este valor p indica la probabilidad de que los valores observados de kurtosis y sesgo sean tan diferentes de los valores esperados para la distribución normal si en realidad la muestra sigue una distribución normal. Si el valor p es menor que un cierto nivel de significación, como 0.05, entonces se rechaza la hipótesis de que la muestra sigue una distribución normal. Si el valor p es mayor que el nivel de significación, entonces se acepta la hipótesis de que

sábado, 24 de diciembre de 2022

Explicación sencilla de la Prueba de normalidad de Jarque-Bera (JB)

 La prueba de normalidad de Jarque-Bera (JB) es una prueba estadística utilizada para determinar si una muestra de datos sigue una distribución normal o no. La distribución normal es una distribución de probabilidad que se utiliza a menudo como un modelo de referencia para datos continuos y es caracterizada por una curva en forma de campana con una media y una desviación estándar definidas.

La prueba de JB se basa en el hecho de que, si una muestra de datos sigue una distribución normal, entonces se esperaría que la media y la varianza de la muestra sean similares a la media y la varianza de la población. La prueba de JB utiliza dos estadísticos, denominados estadísticos JB, para evaluar si la media y la varianza de la muestra son similares a la media y la varianza de la población. Si los estadísticos JB son suficientemente grandes, se rechaza la hipótesis de que la muestra sigue una distribución normal.

La prueba de JB es una prueba paramétrica, lo que significa que se basa en el supuesto de que se conocen la media y la varianza de la población. Por lo tanto, se debe tener cuidado al utilizar esta prueba con muestras pequeñas o con datos que no sigan una distribución normal. En esos casos, puede ser más adecuado utilizar una prueba no paramétrica para evaluar la normalidad de los datos.

viernes, 3 de enero de 2014

Otras prueba sobre la bondad del modelo

Recuérdese que el MCRLN tiene muchos otros supuestos adicionales al de la normalidad del término de error. A medida que se desarrolle la teoría econométrica, se considerarán diversas pruebas de la bondad del modelo. Hasta entonces, recuérdese que nuestra elaboración de modelos de regresión está basado en diversos supuestos simplificadores que pueden no mantenerse en todos los casos.

jueves, 2 de enero de 2014

Prueba de normalidad de Jarque-Bera (JB)

La prueba de JB de normalidad es una prueba asintótica, o de grandes muestras. También está basada en los residuos MCO. Esta prueba calcula primero la asimetría y los curtosis o apuntamiento de los residuos MCO y utiliza el siguiente estadístico de prueba:



donde A representa la asimetría y K representa la curtosis o apuntamiento.

Puesto que para una distribución normal el valor de la asimetría es cero y el valor de la curtosis es 3, en (5.12.2)(K-3) representa la curtosis excedente. Bajo la hipótesis nula de que los residuos están normalmente distribuidos, Jarque y Bera demostraron que asintóticamente (es, decir en muestras grandes) el estadístico JB dado en (5.12.2) sigue una distribución Ji cuadrado con 2 g de l. Si el valor p del estadístico ji cuadrado calculado en una aplicación es suficientemente pequeño, se puede rechazar la hipótesis de que los residuos están normalmente distribuidos. Pero si el valor p es razonablemente alto, no se rechaza el supuesto de normalidad.

En el ejemplo consumo-ingreso se encuentra (utilizando los paquetes de SHAZAM, TSP, ET) ek valor JB de 0.7769. Si la muestra fuera razonablemente grande, el valor p de obtener tal valor ji cuadrado para 2 g de l sería alrededor de 0.6781, una probabilidad bastante grande. Por consiguiente, asintóticamente, no se rechaza el supuesto de normalidad.

miércoles, 1 de enero de 2014

Prueba de Bondad de Ajuste Ji Cuadrado(X²) (IV)

Volviendo al ejemplo de consumo-ingreso, como se mostró en la tabla anterior, vemos que el valor de X² es alrededor de 0.92. Aunque el tamaño de la muestra es más bien pequeño, solamente para ilustrar el procedimiento aplicaremos la prueba Ji cuadrado. En este ejemplo se tienen seis clases. Parecería que los grados de libertad fueran (6-1) = 5. Pero, como se anotó en la nota de pie de página 21, perdimos 3 g de l más, pues se tuvieron que estimar β1 y β2 antes de poder calcular los residuos ûi y 1 porque se utilizan los datos para estimar la desviación estándar de los residuos. Ahora para 2 g de l, el valor p de obtener un Ji cuadrado mayor o igual que 0.925 es alrededor de 0.63. Puesto que esta probabilidad es bastante, alta la diferencia entre los valores observado y esperado de lso residuos no es lo suficientemente fuerte para rechazar el supuesto de normalidad.

A propósito, antes de aplicar la prueba Ji cuadrado de la forma recién descrita, se puede, en forma sencilla, graficar los residuos observados dados en la tabla anterior en la forma de histogramas como aparece en la figura 5.7. Como lo muestra esta figura, los residuales observados (medidos en términos de unidades de desviación estándar desde cero) parecen aproximarse a la distribución normal. Muy frecuentemente, una gráfica como ésta es una buena manera de aprender informalmente sobre la forma probable de la distribución de probabilidad de una variable aleatoria.

martes, 31 de diciembre de 2013

Prueba de Bondad de Ajuste Ji Cuadrado(X²) (III)

donde Oi = frecuencia observada en la clase o intervalo i y Ei = la frecuencia esperada en la clase i con base en la distribución hipotética, es decir, la normal. Ahora, si la diferencia entre las frecuencias observada y esperada es "pequeña", esto sugiere que las perturbaciones ui probablemente provienen de la distribución de probabilidad hipotética. Por otra parte, si la discrepancia entre las frecuecias observada y esperada es "grande", podemos rechazar la hipótesis nula de que las perturbaciones provienen, de la distribución de probabilidad hipotética.Por esta razón, el estadístico dado en (5.12.1) es llamado una medida de bondad de ajuste, ya que nos dice qué tan bien se ajusta la distribución de probabilidad hipotética a los datos observados, es decir es el ajuste bueno?.

Qué tan "grande" o "pequeño" debe ser el valor de X² dado en (5.12.1) para hacernos decidir en contra o a favor de la hipótesis nula, es decir, rechazarla o no? Puede mostrarse que si el tamaño de la muestra es razonablemente grande, el estadístico X² dado en (5.12.1) presenta aproximadamente la distribución Ji cuadrado (X²) con (N-1) g de l, donde N es el número de clases o de grupo. Se pierde un grado de libertad debido a la restricción de que el número total de frecuencias observadas y esperadas debe ser el mismo.

lunes, 30 de diciembre de 2013

Prueba de Bondad de Ajuste Ji Cuadrado(X²) (II)

La fila titulada como residuales observados de la distribución de frecuencia de los residuales para desviaciones estándar específicas por debajo y por encima de cero. En el ejemplo no hay residuales a una distancia de 2 desviaciones estándar por debajo de cero, hay 2 residuales entre 1 y 2 desviaciones estándar por debajo de cero, hay 3 residuales entre 0 y 1 desviaciones estándar por debajo de cero, hay 4 residuales entre 0 y 1 desviación estándar por encima de cero hay 1 residual entre 1 y 2 desviaciones estándar por encima de cero y no hay residuales más allá de 2 desviaciones estándar por encima de cero.

De la fila de residuos esperados se obtiene la distribución de frecuencia de los residuos con base en una distribución de probabilidad hipotética, norma en este caso. En la tercera fila se calcula la diferencia entre las frecuencias observadas y esperadas, se eleva al cuadrado la diferencia, se divide por la frecuencia esperada y se suman. Algebraicamente, se tiene

domingo, 29 de diciembre de 2013

Prueba de Bondad de Ajuste Ji Cuadrado(X²) (I)

Esta prueba se realiza de la siguiente forma: Primero se corre la regresión, se obtienen los residuales, ui y se calcula la desviación estándar muestral de ûi. Entonces se ordenan los residuales por rango y se ubican en diversos grupos (en el ejemplo, se han ubicado en seis grupos) correspondientes al número de desviaciones estándar desde cero, Para el ejemplo, se obtienen los siguientes datos, para su análisis.

sábado, 28 de diciembre de 2013

Prueba de normalidad

Aunque se han estudiado diversas pruebas de normalidad en la teoría, solamente se considerarán dos: (1) la prueba de bondad de ajuste ji cuadrado (2) la prueba de Jarque-Bera. Ambas pruebas utilizan los resuduaes ûi y la distribución de probabilidad ji-cuadrado.

viernes, 27 de diciembre de 2013

Evaluación de resultados del análisis de regresión

En la figura 1.4 de la introducción se esboza la anatomía de la elaboración de modelos econométricos. Ahora que se han presentado los resultados del análisis de regresión de nuestro ejemplo consumo ingreso en (5.11.1), nos gustaría cuestionar la bondad del modelo ajustado. Qué tan "bueno" es el modelo ajustado? Se necesita algún criterio para poder responder a esta pregunta.

Primero. Están los signos de los coeficientes estimados de acuerdo con las expectativas teóricas o previas? A priori, la propensión marginal a consumir (PMC) en la función consumo β2, debe ser positiva. En el presente ejemplo, lo es. Segundo, si la teoría dice que la relación no debe ser solamente positiva sino también estadísticamente significativa. Es este el caso en la presente aplicación? Como lo analizamos en la sección 5.11, la PMC no sólo es positiva sino también estadísticamente significativa, es decir, diferente de cero; el valor p del valor t estimado es extremadamente pequeño. Los mismos comentarios son aplicables al coeficiente del intercepto. Tercero, Qué tan bien explica el modelo de regresión la variación en el gasto de consumo? se puede utilizar r² para responder esta pregunta. En el ejemplo presente r² es alrededor de 0.96, el cual es un valor muy alto considerando que r² puede ser como máximo 1.

Por tanto, el modelo que se ha escogido para explicar el comportamiento de gasto de consumo parece muy bueno. Pero antes de comprometerse con él, sería interesante averiguar si el modelo satisface los supuestos del MCRLN. No se mirarán, ahora los diversos supuestos pues la simplicidad del modelo es clara. Solo hay un supuestos que podría verificar, a saber, el de normalidad del término de perturbación, ui. Recuérdese que las pruebas t y F utilizadas antes requieren que el término de error siga una distribución normal. De lo contrario, el procedimiento de prueba no será válido en muestras pequeñas, o finitas.

jueves, 26 de diciembre de 2013

Informe de resultados del análisis de regresión (II)

Al presentar los valores p de los coeficientes t estimados, se puede ver inmediatamente el nivel exacto de significancia de cada valor t estimado. Así, bajo la hipótesis nula de que el verdadero valor del intercepto poblacional es cero, la probabilidad exacta (es decir, el valor p) de obtener un valor t mayor o igual a 3.8128 es apenas de 0.0026. Por consiguiente, si rechazamos esta hipótesis nula, la probabilidad de que se cometa un error tipo 1 es de cerca de 26 en 10,000 en efecto una probabilidad muy baja. Para todo fin práctico, se puede decir que el verdadero intercepto poblacional es diferente de cero. De igual forma, el valor p del coeficiente de la pendiente estimado es cero para cualquier fin práctico. Si la verdadera PMC fuera de hecho cero, la posibilidad de obtener una PMC de 0.5091 sería prácticamente cero. Por lo cual se puede rechazar la hipótesis nula de que la verdadera PMC es cero.

En el teorema 4.7 se muestra la conexión entre los estadisticas F y t, a saber, F(1,k) = t²k Bajo la hipótesis nula de que el verdadero β2 = 0, (5.11.1)muestra que el valor F es 202.87 (para 1 g de l en el numerador y 8 g de l en el denominador) y el valor t es cercano a 14.24 (8 g de l); como se esperaba, el primer valor es igual al último valor elevado al cuadrado, salvo por errores de aproximación. La tabla ANOVA para este problema ya ha sido analizada.

miércoles, 25 de diciembre de 2013

Informe de resultados del análisis de regresión (I)

Existen diversas formas de presentar los resultados de un análisis de regresión, sin embargo, en este texto se utilizará el siguiente formato, empleando el ejemplo consumo-ingreso del capítulo 3 a manera de ilustración.
En la ecuación (5.11.1), las cifras en el primer conjunto de paréntsis son los errores estándar estimados de los coeficientes de regresión, las cifras del segundo conjunto son los valores t estimados calculados de (5.3.2) bajo la hipótesis nula de que el verdadero valor poblacional de cada coeficiente de regresión individual es cero (es decir, 3.8128 = 24.4545 + 6.4138), y las cifras en el tercer grupo son los valores p o "p-values" estimados. Por tanto, para 8 g de l la probabilidad de obtener un valor t mayor o igual a 3.8128 es 0.0026 y la probabilidad de obtener un valor t mayor o igual a de 14.2405 es alderededor de 0.00000003.

martes, 24 de diciembre de 2013

Predicción individual (II)

Comparando este intervalo con (5.10.5), se ve que el intervalo de confianza para el Yo individual es más amplio que el intervalo para el valor medio de Yo. (Por qué?) Calculando los intervalos de confianza como en (5.10.7) condicionales a los valores de X dados en la tabla 3.2, se obtiene la banda de confianza al 95% para los valores individuales Y correspondientes a estos valores de X.

Esta banda de confianza, al igual que la banda de confianza para Yo asociadas con los mosmos X,se muestran en la figura 5.6

Nótese una caraterística importante de las bandas de confianza que se muestran en la figura 5.6. La amplitud más pequeña de estas bandas se presenta cuando Xo = X. Por qué? Sin embargo, ésta aumenta considerablemente a medida que Xo se aleja de X. Por qué? Este cambio sugeriría que la capacidad de predicción de la línea de regresión muestral histórica decrece a medida que Xo se aleja progresivamente de X. Por consiguiente, se debe ser cauteloso al "extrapolar la línea" de regresión histórica para predecir E(Y|Xo) o Yo asociado con una Xo dado, que está muy alejado de la medida muestral X.


lunes, 23 de diciembre de 2013

Predicción individual (I)

Si nuestro interés está en predecir un valor individual Y, Yo correspondiente a un valor dado X, digamos, Xo, entonces, como se muestra en el apendice, el mejor estimador lineal insesgado de Yo está dado también por (5.10.1) pero su varianza es la siguiente.

Puede demostrarse además que Yo también sigue una distribución normal con media y varianza dadas por (5.10.1) y (5.10.6), respectivamente. Sustituyendo σ² desconocido por σ², se cumple que





también sigue una distribución t. Por consiguiente, la distribución t puede utilizarse para hacer inferencia sobre el verdadero Yo. Al continuar con nuestro ejemplo consumo-ingreso, se ve que la predicción puntual de Yo es 75.3645, igual a Yo y su varianza es 52.6349 (el lector debe verificar con cálculo). Por consiguiente, el intervalo de confianza al 95% para Yo correspondiente a Xo = 100 es

domingo, 22 de diciembre de 2013

Predicción Media (II)

Por tanto, dada Xo = 100, en muestreo repetido, en 95 de cada 100 intervalos como (5.10.5) estará incluido el verdadero valor medio; la mejor estimación del verdadero valor medio es, por supuesto, la estimación puntual 75.3645.

Si se obtienen intervalos de confianza al 95% como (5.10.5) para cada uno de los valores de X dados en la tabla 3.2, se obtiene lo que se conoce como el intervalo de confianza, o banda de confianza, para la función de regresión poblacional, que se presenta en la figura 5.6

sábado, 21 de diciembre de 2013

Predicción Media (I)

Al reemplazar σ² desconocido por su estimador insesgado σ², se cumple que la variable.




sigue una distrubición t con n-2 g de l. La distribución t puede ser utilizada por consiguiente para construir intervalos de confianza para el verdadero E(Yo|Xo) y para hacer pruebas de hipótesis acerca de tal valor de manera usual, a saber.

viernes, 20 de diciembre de 2013

Predicción Media

Para obtener las ideas, supóngase que Xo=100 y se desea predecir E(Y|Xo =100). Ahora, puede demostrarse que la regresión historica (3.6.2) proporciona la estimación puntual de esta predicción media de la siguiente forma:



donde Yo = estimador de E(Y|Xo). Puede demostrarse que este predictor puntual es el mejor estimador lineal e insesgado (MELI)

Puesto que Yo es un estimador, es probable que éste sea diferente de su verdadero valor. La diferencia entre los dos valores dará alguna idea sobre el error de predicción o de pronostico. Para evaluar este error, es necesario encontrar la distribución muestral de Yo. En el apéndice 5A, sección 5A.3, se demuestra que en la ecuación (5.10.1), Yo está normalmente distribuida con media (β1 + β2Xo) y con varianza dada por la siguiente fórmula:

jueves, 19 de diciembre de 2013

Aplicación del análisis de regresión: Problema de Predicción

Con base en los datos muestrales de la tabla 3.2, se obtuvo la siguiente regresión muestral.

Yi = 24.4545 + 0.5091Xi

donde Yt es el estimador del verdadero E(Yi) correspondiente a X dado. Qué uso se puede dar a esta regresión histórica? Un uso es "predecir" o "pronosticar" el gasto de consumo futuro Y correspondiente a algún nivel dado de ingreso X. Ahora, hay dos clases de predicciones: (1) la predicción del valor de la media condicional de Y correspondiente a un valor escogido X, por ejemplo Xo, que es el punto sobre la línea de regresión poblacional misma y (2) predicción de un valor individual Y correspondiente a Xo. Se llamarán estas dos predicciones la predicción media y la predicción individual.

miércoles, 18 de diciembre de 2013

Análisis de regresión y análisis de varianza (V)

Recuérdese el teorema 4.7 de la sección 4.5, que plantea que el cuadrado del valort con k g de l es un valor F con un g de l en el numerador y k g de l en el denominador. Para el ejemplo consumo ingreso, si se supone Ho: β2 = 0, entonces de (5.3.2) puede verificarse fácilmente que el valor t estimado es 14.24. Este valor t tiene 8 g de l. Bajo la misma hipótesis nula, el valor F er 202.87 con 1 y 8 gde l. De donde (14.24)^2 = valor F, excepto por errores de aproximación.

Así, las pruebas t y F proporcionan dos formas alternas, pero complementarias, de probar la hipótesis nula que β2 = 0. Si este es el caso, por qué no simplemente confiar en la prueba t y no preocuparse por la prueba F y por el análisis de varianza que lo acompaña? Para el modelo de dos variables, realmente no hay necesidad de recurrir a la prueba F. Pero cuando se considere el tema de la regresión múltiple, se verá que la prueba F tiene diversas aplicaciones interesantes que hacen que sea un método muy útil y poderoso de demostrar hipótesis estadísticas.



martes, 17 de diciembre de 2013

Análisis de regresión y análisis de varianza (IV)

(Obsérvese que β2 y σ^2 al lado derecho de estas ecuaciones son los verdaderos parámetros). Por consiguiente, si β2, es en realidad cero,ambas ecuaciones (5.9.2) y (5.9.3) proporcionan estimaciones idénticas del verdadero σ^2. En esta situación, la variable explicativa X no tiene influencia lineal alguna sobre Y y toda la variación en Y es explicada por las perturbaciones aleatorias ui. De otra parte si, β2 es diferente de cero, (5.9.2) y (5.9.3) serán diferentes y parte de la variación en Y se atribuirá a X. Por consiguiente, la razón F de (5.9.1) constituye una prueba sobre la hipótesis nula Ho:β2 = 0. Puesto que todas las cantidades que hacen parte de esta ecuación pueden ser obtenidas a partir de la muestra disponible, esta razón F constituye un estadístico de prueba para verificar la hipótesis nula de que el verdadero β2 es igual a cero. Todo lo que debe hacerse es calcular la razón F y compararla con el valor crítico F obtenida de la tabla F al nivel de significancia seleccionado, u obtener el valor p del estadístico F calculado.

A manera de ilustración, se continúa con el ejemplo consumo-ingreso. La tabla ANOVA para este ejemplo se presenta en la Tabla 5.4. El valor F calculado es 202.87. El valor p de este estadístico F correspondiente a 1 y 8 g de l no puede se obtenido de la tabla F dada en el apéndice D pero, utilizando las tablas estadísticas electrónicas puede demostrarse que el valor p es 0.0000001, en efecto una probabilidad muy pequeña. Si se decide escoger el enfoque de nivel de significancia para la prueba de hipótesis y fijar α en 0.01, o en un nivel del 1%, se puede ver que la F calculada de 202.87 es obviamente significativa a ese nivel. Por consiguiente, si se rechaza la hipótesis nula de que β2 =0, la probabilidad de cometer un error tipo 1 es muy pequeña. Para todos los fines prácticos, la muestra no puedo haber provenido de una población con un valor β2 igual a cero y se puede concluir con gran confianza que X, el ingreso, afecta Y, el gasto de consumo.