Busca en el Blog

sábado, 31 de diciembre de 2022

Un ejemplo de un ejercicio que se resuelve por la Prueba de normalidad de Jarque-Bera (JB)

 La prueba de normalidad de Jarque-Bera (JB) es una prueba estadística que se utiliza para determinar si una muestra de datos sigue una distribución normal o no. Se basa en el hecho de que la distribución normal tiene una forma específica con una curva en campana y ciertos valores esperados para dos estadísticos de forma, conocidos como la kurtosis y la sesgo. La prueba de JB calcula estos estadísticos a partir de la muestra de datos y los compara con los valores esperados para la distribución normal. Si los valores observados son muy diferentes de los valores esperados, es probable que la muestra no siga una distribución normal.

A continuación te presento un ejemplo de cómo se podría utilizar la prueba de JB para determinar si una muestra de datos sigue una distribución normal o no.

Ejemplo:

Se tiene una muestra de 50 observaciones de la altura de una planta. Se desea determinar si la altura de la planta sigue una distribución normal o no.

Para realizar la prueba de JB, primero se calculan la kurtosis y el sesgo de la muestra:

Kurtosis = 3.12

Sesgo = -0.47

Luego, se comparan estos valores con los valores esperados para la distribución normal:

Kurtosis esperada para la distribución normal = 3

Sesgo esperado para la distribución normal = 0

Como se puede ver, el valor observado de la kurtosis es muy cercano al valor esperado para la distribución normal, mientras que el valor observado de sesgo es ligeramente menor que el valor esperado. Esto sugiere que la muestra de alturas de plantas podría seguir una distribución normal, aunque no se puede afirmar con certeza debido a la pequeña diferencia entre los valores observados y esperados.

Para obtener una conclusión más precisa, se podría utilizar el valor p obtenido de la prueba de JB. Este valor p indica la probabilidad de que los valores observados de kurtosis y sesgo sean tan diferentes de los valores esperados para la distribución normal si en realidad la muestra sigue una distribución normal. Si el valor p es menor que un cierto nivel de significación, como 0.05, entonces se rechaza la hipótesis de que la muestra sigue una distribución normal. Si el valor p es mayor que el nivel de significación, entonces se acepta la hipótesis de que

sábado, 24 de diciembre de 2022

Explicación sencilla de la Prueba de normalidad de Jarque-Bera (JB)

 La prueba de normalidad de Jarque-Bera (JB) es una prueba estadística utilizada para determinar si una muestra de datos sigue una distribución normal o no. La distribución normal es una distribución de probabilidad que se utiliza a menudo como un modelo de referencia para datos continuos y es caracterizada por una curva en forma de campana con una media y una desviación estándar definidas.

La prueba de JB se basa en el hecho de que, si una muestra de datos sigue una distribución normal, entonces se esperaría que la media y la varianza de la muestra sean similares a la media y la varianza de la población. La prueba de JB utiliza dos estadísticos, denominados estadísticos JB, para evaluar si la media y la varianza de la muestra son similares a la media y la varianza de la población. Si los estadísticos JB son suficientemente grandes, se rechaza la hipótesis de que la muestra sigue una distribución normal.

La prueba de JB es una prueba paramétrica, lo que significa que se basa en el supuesto de que se conocen la media y la varianza de la población. Por lo tanto, se debe tener cuidado al utilizar esta prueba con muestras pequeñas o con datos que no sigan una distribución normal. En esos casos, puede ser más adecuado utilizar una prueba no paramétrica para evaluar la normalidad de los datos.

jueves, 22 de diciembre de 2022

¿Qué es la econometria?

 La econometría es una rama de la economía que se ocupa del análisis cuantitativo de datos económicos y financieros. Se utiliza para entender y predecir el comportamiento de los mercados y para evaluar políticas económicas. La econometría se basa en el uso de modelos matemáticos y estadísticos para analizar datos y hacer inferencias sobre el comportamiento de la economía.

Los econometristas utilizan técnicas matemáticas y estadísticas para analizar datos económicos y financieros y para evaluar la relación entre variables económicas. Por ejemplo, pueden utilizar modelos econometricos para analizar la relación entre el nivel de empleo y el nivel de producción, o para predecir el comportamiento de los precios en el futuro.

La econometría es una disciplina importante en la toma de decisiones en el ámbito empresarial y gubernamental, ya que permite a los decisores tomar decisiones basadas en análisis cuantitativos y en predicciones precisas sobre el comportamiento de la economía y los mercados.

sábado, 12 de noviembre de 2022

Modelos de regresión uniecuacionales - EJERCICIO 7

Los datos de la tabla 1.6 se publicaron el primero de marzo de 1984 en el periódico The Wall Street Journal. Se refi eren al presupuesto publicitario (en millones de dólares) de 21 empresas en 1983 y a los millones de impactos semanales (veces que los clientes ven los anuncios de los productos de dichas compañías por semana). La información se basa en una encuesta a 4 000 adultos en la que se pidió a los usuarios de los productos que mencionaran un comercial que hubieran visto en la semana anterior y que tuviera que ver con la categoría del producto.

a) Trace una gráfi ca con los impactos en el eje vertical y el gasto publicitario en el horizontal.

b) ¿Qué se puede decir sobre la relación entre ambas variables?

c) Al observar la gráfi ca, ¿cree que es redituable el gasto en publicidad? Piense en todos los comerciales que se transmiten el domingo que se juega el Super Bowl o durante la Serie Mundial del beisbol estadounidense.

Nota: En los siguientes capítulos estudiaremos más a fondo los datos de la tabla 1.6.
uniecuacionales

miércoles, 17 de agosto de 2022

Modelos de regresión uniecuacionales - EJERCICIO 6

Experimentos controlados en economía: El 7 de abril de 2000, el presidente Clinton convirtió en ley una propuesta aprobada por ambas cámaras legislativas estadounidenses mediante la cual se eliminaban las limitaciones de benefi cios para los derechohabientes del sistema de seguridad social. Antes de esa ley, los derechohabientes de entre 65 y 69 años con percepciones mayores de 17 000 dólares al año perdían el equivalente a un dólar de las prestaciones de seguridad social por cada 3 dólares de ingresos que excedieran 17 000 dólares. ¿Cómo se planearía un estudio que evaluara el efecto de este cambio en la ley? Nota: En la ley derogada no había restricción de ingresos para los derechohabientes de más de 70 años.

jueves, 4 de agosto de 2022

Modelos de regresión uniecuacionales - EJERCICIO 5

Suponga que va a crear un modelo económico de actividades delictivas en el que considere las horas invertidas en ellas (por ejemplo, en la venta de drogas). ¿Qué variables tomaría en cuenta para crear dicho modelo? Vea si su modelo se asemeja al del economista ganador del premio Nobel, Gary Becker.

miércoles, 13 de julio de 2022

Modelos de regresión uniecuacionales - EJERCICIO 4

 En la tabla 1.5 aparecen los datos en los que se basa la oferta de dinero M1 de la figura 1.5. ¿Puede explicar por qué se incrementó la oferta de dinero durante el periodo que se muestra en la tabla?

oferta de dinero M1

oferta de dinero M1


miércoles, 29 de junio de 2022

Modelos de regresión uniecuacionales - EJERCICIO 3

En la tabla 1.4 se presentan los tipos de cambio de nueve países industrializados correspondientes a 1985-2006. Excepto para Gran Bretaña, el tipo de cambio se defi ne como las unidades de la divisa equivalentes a un dólar estadounidense; para ese país, se define como el número de dólares estadounidenses que se cambian por una libra inglesa.

a) Grafique los tipos de cambio en función del tiempo y comente el comportamiento general de los tipos de cambio durante el periodo.

b) Se dice que el dólar tiene una apreciación si se compran más unidades de una divisa. Por el contrario, se dice que sufre una depreciación si se adquieren menos divisas. En el periodo 1985-2006, en general, ¿qué comportamiento tuvo el dólar estadounidense? A propósito, busque en un texto de macroeconomía o economía internacional los factores que determinan la apreciación o depreciación de una moneda.
Tipo de cambio

jueves, 16 de junio de 2022

Modelos de regresión uniecuacionales - EJERCICIO 2

 a) Use la tabla 1.3 para trazar la gráfica de la tasa de inflación de Canadá, Francia, Alemania, Italia, Japón y Gran Bretaña, en comparación con la de Estados Unidos.

b) Comente en términos generales el comportamiento de la tasa de inflación de los seis países, en comparación con la de Estados Unidos.

c) Si descubre que las tasas de infl ación de esos seis países tienen la misma dirección que la de Estados Unidos, ¿esto indicaría que la infl ación en Estados Unidos “provoca” la inflación en los demás países? ¿Por qué?

Modelos de regresión uniecuacionales


miércoles, 25 de mayo de 2022

Modelos de regresión uniecuacionales - EJERCICIO 1

 1.1. La tabla 1.3 proporciona datos sobre el índice de precios al consumidor de siete países industrializados, cuya base es 1982-1984 = 100.

a) A partir de estos datos, calcule la tasa de inflación en cada país.17

b) Grafique la tasa de inflación de cada nación en función del tiempo (es decir, asigne el eje horizontal al tiempo, y el vertical, a la tasa de inflación).

c) ¿Qué conclusiones generales surgen respecto de la inflación en los siete países?

d ) ¿Qué país tiene, al parecer, la tasa de inflación más variable? ¿Puede explicarlo? 

Modelos de regresión uniecuacionales

jueves, 19 de mayo de 2022

Resumen y conclusiones - Modelos de regresión uniecuacionales

 1. La idea fundamental del análisis de regresión es la dependencia estadística de una variable, la dependiente, respecto de otra o más variables, las explicativas.

2. El objetivo de tal análisis es estimar o predecir la media o el valor promedio de la variable dependiente con base en los valores conocidos o fi jos de las explicativas.

3. En la práctica, un buen análisis de regresión depende de la disponibilidad de datos apropiados.

En este capítulo analizamos la naturaleza, fuentes y limitaciones de los datos disponibles para la investigación, en especial en las ciencias sociales.

4. En toda investigación se debe señalar con claridad las fuentes de los datos para el análisis, sus definiciones, sus métodos de recolección y cualquier laguna u omisión en ellos, así como toda revisión que se les haya aplicado. Tenga en cuenta que los datos macroeconómicos que publica el gobierno con frecuencia son objeto de revisión.

5. Como el lector tal vez no tenga tiempo, energía o recursos para llegar a la fuente original de los datos, tiene el derecho de suponer que el investigador los recopiló de manera apropiada, y que los cálculos y análisis son correctos.


lunes, 16 de mayo de 2022

Una observación sobre las escalas de medición de las variables

 Las variables que a menudo encontrará se clasifi can en cuatro categorías generales: escala de razón, escala de intervalo, escala ordinal y escala nominal. Es importante comprender cada una.

Escala de razón

Para la variable X, al tomar dos valores (X1 y X2), la razón X1/X2 y la distancia (X2 − X1) son cantidades con un signifi cado. Asimismo, hay un ordenamiento natural (ascendente o descendente) de los valores a lo largo de la escala. En virtud de lo anterior, son sensatas las comparaciones como X2 ≤ X1 o X2 ≥ X1. En su mayoría, las variables económicas pertenecen a esta categoría. Por consiguiente, no es descabellado preguntar a cuánto asciende el PIB de este año en comparación con el del año anterior. El ingreso personal, en dólares, es una variable de razón; alguien que gana 100 000 dólares recibe el doble que quien percibe 50 000 (antes de impuestos, desde luego).

Escala de intervalo

Una variable en escala de intervalo satisface las dos últimas propiedades de la variable en escala de razón, pero no la primera. Por tanto, la distancia entre dos periodos, (digamos 2000-1995), tiene signifi cado, no así la razón de dos periodos (2000/1995). A las 11 de la mañana (hora de la costa del Pacífi co de Estados Unidos) del 11 de agosto de 2007 se registró en Portland, Oregon, una temperatura de 60° Fahrenheit (15.5° Celsius), y en Tallahassee, Florida, de 90° F (32° C). La temperatura con esta escala no se mide en escala de razón pues no tiene sentido decir que en Tallahassee hizo 50% más calor que en Portland. Esto se debe sobre todo a que la escala Fahrenheit no usa 0° como base natural.

Escala ordinal

Una variable pertenece a esta categoría sólo si satisface la tercera propiedad de la escala de razón (es decir, el orden natural), como los sistemas de califi caciones por letras (A, B, C) o los niveles de ingresos alto, medio y bajo). Para estas variables hay un orden, pero las distancias entre las categorías no son cuantifi cables. Los estudiantes de economía recordarán las curvas de indiferencia entre dos bienes, en donde una curva superior de indiferencia señala un mayor nivel de utilidad, pero no se puede cuantifi car en qué medida una curva de indiferencia es mayor que otra.

Escala nominal

Las variables de esta categoría no tienen ninguna característica de las variables en escala de razón. Las variables como el género (masculino y femenino) y el estado civil (casado, soltero, divorciado, separado) simplemente denotan categorías. Pregunta: ¿por qué no expresar dichas variables con las escalas de razón, intervalo u orden?

Como veremos, las técnicas econométricas adecuadas para las variables en escala de razón no resultarían pertinentes para las variables en escala nominal. En consecuencia, es importante tener en mente las diferencias entre los cuatro tipos de escalas de medición recién analizadas.

lunes, 28 de marzo de 2022

Precisión de los datos

Si bien se dispone de numerosos datos para la investigación económica, su calidad no siempre es adecuada, y por múltiples razones.

1. Como ya vimos, en su mayoría, los datos de las ciencias sociales son de naturaleza no experimental. Por consiguiente, es posible incurrir en errores de observación, sea por acción u omisión.

2. Aun en datos reunidos experimentalmente surgen errores de medición debido a las aproximaciones o al redondeo.

3. En encuestas por cuestionarios, el problema de la falta de respuesta puede ser grave; un investigador tiene suerte si obtiene una tasa de respuesta de 40%. El análisis basado en dicha tasa de respuesta parcial quizá no refl eje de verdad el comportamiento del 60% que no respondió, y ocasione, por consiguiente, un sesgo de selectividad (muestral). Además, existe el problema de quienes responden el cuestionario pero no todas las preguntas, sobre todo las que son delicadas por tratar cuestiones fi nancieras, lo que genera un sesgo adicional de selectividad.

4. Los métodos de muestreo para obtención de datos llegan a variar tanto que a menudo es difícil comparar los resultados de las diversas muestras.

5. Las cifras económicas suelen estar disponibles en niveles muy agregados. Por ejemplo, la mayor parte de los macrodatos (como el PIB, empleo, infl ación, desempleo) están disponibles para la economía en su conjunto, o, en el mejor de los casos, para algunas regiones geográfi cas muy amplias. Los datos con estos niveles tan elevados de agregación tal vez no ilustren mucho sobre los sujetos o las microunidades objeto de estudio.

6. Debido a su carácter confi dencial, ciertos datos sólo pueden publicarse en forma muy agregada. En el caso de Estados Unidos, por ejemplo, la ley prohíbe al IRS (hacienda) revelar información sobre declaraciones de impuestos individuales; sólo puede revelar algunos datos generales. Por consiguiente, si se desea conocer el monto gastado en salud por los individuos con cierto nivel de ingresos, sólo es posible en un nivel muy agregado. Pero los macroanálisis de este tipo con frecuencia resultan insufi cientes para revelar la dinámica del comportamiento de las microunidades. De igual forma, el Departamento de Comercio estadounidense, que levanta el censo de empresas cada cinco años, no tiene autorización para revelar información sobre producción, empleo, consumo de energía, gastos de investigación y desarrollo, etc., de las empresas. Así, es difícil estudiar las diferencias entre las empresas en estos aspectos.

Por estos problemas, y muchos más, el investigador debe tener siempre en mente que el resultado de la investigación será tan bueno como lo sea la calidad de los datos. Por tanto, si en algunas situaciones los investigadores concluyen que los resultados de la investigación son “insatisfactorios”, la causa puede ser la mala calidad de los datos y no un modelo equivocado. Por desgracia, debido a la naturaleza no experimental de los datos de la mayoría de los estudios de ciencias sociales, los investigadores con frecuencia no tienen más remedio que depender de la información disponible. Sin embargo, siempre deben tener presente que los datos pueden no ser los mejores y tratar de no ser muy dogmáticos sobre los resultados de un estudio dado, sobre todo cuando la calidad de los datos no es confiable.

lunes, 21 de marzo de 2022

Fuentes de datos - Internet

Internet revolucionó la labor de recopilación de datos. Si uno “navega” por la red en los motores de búsqueda con sólo una palabra o frase (por ejemplo, tipos de cambio), se verá inundado con todo tipo de fuentes de datos. En el apéndice E se mencionan algunos sitios Web que suministran todo tipo de información fi nanciera y económica, y que se visitan con mayor frecuencia. La mayoría de los datos se descarga con un costo mínimo. Conviene incluir en la lista de Favoritos, los sitios Web que brinden datos económicos útiles.

Los datos recopilados por estas organizaciones pueden ser de naturaleza experimental o no experimental. En los datos experimentales, frecuentes en las ciencias naturales, el investigador suele recabar los datos con algunos factores constantes, con el fi n de evaluar el efecto de otros en un fenómeno dado. Por ejemplo, al estimar el efecto de la obesidad en la presión arterial, el investigador recopilaría los datos y mantendría constantes los hábitos de las personas respecto de comer, fumar y beber para reducir la infl uencia de estas variables en la presión arterial.

En las ciencias sociales, los datos por lo general son de naturaleza no experimental, es decir, no están sujetos al control del investigador.14 Por ejemplo, el investigador no ejerce ningún control directo sobre los datos del PIB, desempleo, precios de acciones, etc. Como veremos, esta falta de control a menudo genera problemas especiales para el investigador al identifi car la causa o causas precisas que afectan una situación particular. Por ejemplo, ¿es la oferta monetaria la que determina el PIB (nominal) o la relación es inversa?

viernes, 18 de marzo de 2022

Fuentes de datos

Los datos para el análisis empírico pueden provenir de una dependencia gubernamental (por ejemplo, el Departamento de Comercio), un organismo internacional (el Fondo Monetario Internacional [FMI] o el Banco Mundial), una organización privada (por ejemplo, Standard & Poor’s) o un particular. Hay miles de agencias de este tipo que recopilan datos para uno u otro fin.

lunes, 21 de febrero de 2022

Tipos de datos - Datos en panel, longitudinales o en micropanel

Hay un tipo especial de datos combinados en el cual se estudia a través del tiempo la misma unidad transversal (por ejemplo, una familia o una empresa). Por ejemplo, el Departamento de Comercio de Estados Unidos realiza un censo de vivienda en intervalos periódicos. En cada encuesta periódica se entrevista a la misma unidad familiar (o a la gente que vive en la misma dirección) para averiguar si ha habido algún cambio en las condiciones de vivienda o fi nancieras de esa unidad familiar desde la última encuesta. Los datos en panel que se obtienen de las entrevistas periódicas de la misma unidad familiar proporcionan información muy útil sobre la dinámica del comportamiento de las unidades familiares, como veremos en el capítulo 16.

Como ejemplo concreto considere los datos proporcionados en la tabla 1.2. Los datos de la tabla, recopilados originalmente por Y. Grunfeld, se refi eren a la inversión real, al valor real de la empresa y al capital accionario real de cuatro empresas estadounidenses, a saber, General Electric (GM), U.S. Steel (US), General Motors (GM) y Westinghouse (WEST), de 1935 a 1954.12 En virtud de que los datos corresponden a varias empresas y se recopilaron a lo largo de varios años, se trata de un ejemplo clásico de datos en panel. En esta tabla, el número de observaciones de cada empresa es el mismo, pero no siempre ocurre así. Si todas las empresas tienen el mismo número de observaciones, se tiene lo que se conoce como panel balanceado. Si el número de observaciones no es igual para cada compañía, se llama panel desbalanceado. En el capítulo 16, Modelos de regresión con datos en panel, examinaremos estos datos y cómo estimar estos modelos.

El propósito de Grunfeld cuando recopiló estos datos fue investigar cómo depende la inversión bruta real (I ) del valor real de la empresa (F) un año antes y del capital accionario real (C) un año antes. Como las compañías de esta muestra operan en el mismo mercado de capital, Grunfeld las estudió en conjunto para averiguar si tenían funciones de inversión parecidas.

viernes, 18 de febrero de 2022

Tipos de datos - Datos combinados

Los datos combinados reúnen elementos de series de tiempo y transversales. Los datos de la tabla 1.1 son datos combinados. Hay 50 observaciones transversales por año, y dos observaciones de series de tiempo sobre precios y producción de huevo por estado: un total de 100 observaciones combinadas. De igual forma, los datos del ejercicio 1.1 son combinados, pues el índice de precios al consumidor de cada país de 1980 a 2005 representa datos de series de tiempo, en tanto que los datos del IPC de los siete países correspondientes a un solo año son transversales. Los datos combinados consisten en 182 observaciones: 26 observaciones anuales para cada uno de los siete países.

lunes, 14 de febrero de 2022

Tipos de datos - Datos transversales

Los datos transversales consisten en datos de una o más variables recopilados en el mismo punto del tiempo, como el censo de población realizado por la Ofi cina del Censo de Estados Unidos cada 10 años (el último fue en 2000), las encuestas de gastos del consumidor levantadas por la Universidad de Michigan y, sin duda, las encuestas de opinión de Gallup y diversas empresas especializadas. Un ejemplo concreto de datos transversales se presenta en la tabla 1.1, con datos sobre la producción y precios del huevo en Estados Unidos para los 50 estados durante 1990 y 1991. Para cada año, los datos sobre los 50 estados son transversales. Así, en la tabla 1.1 aparecen dos muestras de corte transversal.

Así como los datos de series de tiempo crean problemas especiales (por la estacionariedad), los datos transversales también tienen sus propios problemas, en concreto, el de la heterogeneidad. En los datos de la tabla 1.1 se observa que hay algunos estados que producen grandes cantidades de huevo (como Pensilvania) y otros que producen muy poco (por ejemplo, Alaska). Cuando se incluyen unidades heterogéneas en un análisis estadístico, debe tenerse presente el efecto de tamaño o de escala con el fin de no mezclar manzanas con naranjas. Para ver esto con claridad, en la figura 1.6 se representan gráficamente los datos sobre la producción y los precios del huevo en los 50 estados de Estados Unidos en 1990. Esta fi gura muestra la amplia dispersión de las observaciones. En el capítulo 11 veremos que el efecto de escala puede ser importante al evaluar las relaciones entre variables económicas. 
Producción de Huevo en USA

relación producción de huevo

sábado, 5 de febrero de 2022

Tipos de datos - Datos de series de tiempo

Hay tres tipos de datos disponibles para el análisis empírico: series de tiempo, series transversales e información combinada (combinación de series de tiempo y transversales).

Datos de series de tiempo

Los datos de la tabla 1.1 son un ejemplo de datos de series de tiempo. Una serie de tiempo es un conjunto de observaciones sobre los valores de una variable en diferentes momentos. Tal información debe recopilarse en intervalos regulares, es decir, en forma diaria (precios de acciones, informes del tiempo, etc.), semanal (como cifras de oferta monetaria), mensual (tasa de desempleo, Índice de Precios al Consumidor [IPC], etc.), trimestral (como el PIB), anual (como los presupuestos del gobierno), quinquenal (como el censo de la industria manufacturera), o decenal (como los censos de población). Algunas veces los datos están disponibles por trimestre y por año, como los datos del PIB y del consumo. Con las computadoras de alta velocidad, ahora se recopilan datos en intervalos muy breves, por ejemplo, precios de acciones, que se obtienen literalmente de manera continua (o cotización en tiempo real).

Si bien los datos de series de tiempo se utilizan mucho en estudios econométricos, presentan algunos problemas especiales para los econometristas. Como veremos en los capítulos sobre econometría de series de tiempo, la mayor parte del trabajo empírico con datos de series de tiempo supone que éstas son estacionarias. Aunque es muy pronto para introducir el significado técnico preciso de estacionariedad, en términos generales, una serie de tiempo es estacionaria si su media y varianza no varían sistemáticamente con el tiempo. Para entender esto, observe, en la fi gura 1.5, el comportamiento de la oferta de dinero M1 en Estados Unidos durante el periodo del primero de enero de 1959 a septiembre de 1999. (Los datos reales se proporcionan en el ejercicio 1.4.) Como se observa, la oferta de dinero M1 presenta una tendencia ascendente constante, así como variabilidad con el transcurso de los años, lo cual indica que la serie de tiempo M1 no es estacionaria.11 En el capítulo 21 se analiza a fondo este tema. 

lunes, 31 de enero de 2022

Naturaleza y fuentes de datos para el análisis económico

 El éxito de todo análisis econométrico depende a fi nal de cuentas de la disponibilidad de los datos recopilados. Por consiguiente, es muy importante dedicar algún tiempo a estudiar la naturaleza, las fuentes y las limitaciones de los datos para el análisis empírico.

domingo, 30 de enero de 2022

Naturaleza del análisis de regresión - Terminología y notación

Antes de proceder al análisis formal de la teoría de regresión abordaremos brevemente la terminología y la notación. En las publicaciones especializadas, los términos variable dependiente y variable explicativa se defi nen de varias maneras; a continuación se presenta una lista representativa:
Terminología y notación

Aunque es cuestión de preferencia personal y tradición, en este texto se utiliza la terminología de variable dependiente/variable explicativa, o la más neutral de regresada y regresora.

Si se estudia la dependencia de una variable respecto de una única variable explicativa, como el consumo que depende del ingreso real, dicho estudio se conoce como análisis de regresión simple, o con dos variables. Sin embargo, si se estudia la dependencia de una variable respecto de más de una variable explicativa, como el rendimiento de un cultivo, la lluvia, la temperatura, el Sol y los fertilizantes, se trata de un análisis de regresión múltiple. En otras palabras, en una regresión de dos variables sólo hay una variable explicativa, mientras que en la regresión múltiple hay más de una variable explicativa.

El término aleatorio es sinónimo de estocástico. Como ya vimos, una variable aleatoria o estocástica es la que toma cualquier conjunto de valores, positivos o negativos, con una probabilidad dada.9

A menos que se indique lo contrario, la letra Y representa la variable dependiente, y las X (X1, X2,…, Xk), las variables explicativas, con Xk como la k-ésima variable explicativa. Los subíndices i o t denotan la observación o valor i-ésimo o t-ésimo. Xki (o Xkt) denota la i-ésima (o la t-ésima) observación de la variable Xk. N (o T) representa el número total de observaciones o valores en la población, y n (o t), el número total de observaciones en una muestra. Por convención, se utiliza el subíndice de observación i para los datos transversales (es decir, información recopilada en un momento determinado), y el subíndice t, para datos de series de tiempo (es decir, información reunida a lo largo de un periodo). La naturaleza de datos transversales y de series de tiempo, así como el importante tema de la naturaleza y las fuentes de datos para el análisis empírico, se estudian en la siguiente sección.

miércoles, 26 de enero de 2022

Naturaleza del análisis de regresión - Regresión y correlación

El análisis de correlación se relaciona de manera estrecha con el de regresión, aunque conceptualmente los dos son muy diferentes. En el análisis de correlación, el objetivo principal es medir la fuerza o el grado de asociación lineal entre dos variables. El coefi ciente de correlación, que veremos en detalle en el capítulo 3, mide esta fuerza de asociación (lineal): por ejemplo, si se desea encontrar la correlación (coefi ciente) entre el hábito de fumar y el cáncer del pulmón; entre las califi caciones en exámenes de estadística y en exámenes de matemáticas; entre las califi caciones de bachillerato y de la universidad, y así sucesivamente. En el análisis de regresión, como ya mencionamos, no interesa ese tipo de medición. En cambio, se trata de estimar o predecir el valor promedio de una variable con base en los valores fi jos de otras. Así, quizá se desee predecir el promedio de las califi caciones en un examen de estadística a partir de la califi - cación de un estudiante en un examen de matemáticas.

La regresión y la correlación presentan diferencias fundamentales que vale la pena mencionar. En el análisis de regresión hay una asimetría en el tratamiento a las variables dependientes y explicativas. Se supone que la variable dependiente es estadística, aleatoria o estocástica, es decir, que tiene una distribución de probabilidad. Por otra parte, se asume que las variables explicativas tienen valores fi jos (en muestras repetidas),7 lo cual es explícito en la defi nición de regresión de la sección 1.2. Así, en la fi gura 1.2 se supuso que la variable de edad era fi ja en los niveles dados y se obtuvieron medidas de estatura en esos niveles. En el análisis de correlación, por otra parte, se tratan dos variables cualesquiera en forma simétrica; no hay distinción entre las variables dependiente y explicativa. Después de todo, la correlación entre las califi caciones de los exámenes de matemáticas y de estadística es la misma que la existente entre califi caciones de exámenes de estadística y de matemáticas. Además, las dos variables se consideran aleatorias. Como veremos, la mayor parte de la teoría de correlación parte del supuesto de aleatoriedad de las variables, mientras que la mayor parte de la teoría de regresión que expondremos en este texto está condicionada al supuesto de que la variable dependiente es estocástica y que las variables explicativas son fi jas o no estocásticas.8

sábado, 22 de enero de 2022

Naturaleza del análisis de regresión - Regresión y causalidad

 A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto de otras variables, esto no implica causalidad necesariamente. En palabras de Kendall y Stuart: “Una relación estadística, por más fuerte y sugerente que sea, nunca podrá establecer una conexión causal: nuestras ideas de causalidad deben provenir de estadísticas externas y, en último término, de una u otra teoría”.

En el ejemplo del rendimiento del cultivo citado, no hay una razón estadística para suponer que la lluvia no depende del rendimiento del cultivo. Considerar que el rendimiento del cultivo depende de la lluvia (entre otras cosas) se debe a cuestiones no estadísticas: el sentido común indica que la relación no puede ser a la inversa, pues no es posible controlar la lluvia mediante el rendimiento del cultivo.

En todos los ejemplos de la sección 1.2, lo que se debe notar es que una relación estadística por sí misma no puede, por lógica, implicar causalidad. Para aducir causalidad se debe acudir a consideraciones a priori o teóricas. Así, en el tercer ejemplo, es posible recurrir a la teoría económica para afi rmar que el consumo depende del ingreso real

miércoles, 19 de enero de 2022

Naturaleza del análisis de regresión - Relaciones estadísticas y relaciones deterministas

 En los ejemplos de la sección 1.2 se observa que en el análisis de regresión interesa lo que se conoce como dependencia estadística entre variables, no así la funcional o determinista, propia de la física clásica. En las relaciones estadísticas entre variables se analizan, en esencia, variables aleatorias o estocásticas,4 es decir, variables con distribuciones de probabilidad. Por otra parte, en la dependencia funcional o determinista también se manejan variables, pero no son aleatorias o estocásticas.

Por ejemplo, el rendimiento de un cultivo depende de la temperatura, lluvia, Sol y fertilizantes, y dicha dependencia es de naturaleza estadística porque las variables explicativas, si bien son importantes, no permiten al agrónomo predecir en forma exacta el rendimiento del cultivo debido a los errores propios de la medición de estas variables y a otra serie de factores (variables) que en conjunto afectan el rendimiento pero son difíciles de identifi car individualmente. De esta manera, habrá alguna variabilidad “intrínseca” o aleatoria en la variable dependiente, el rendimiento del cultivo, que no puede explicarse en su totalidad sin importar cuántas variables explicativas se consideren.

Los fenómenos deterministas, por otra parte, implican relaciones como la ley de la gravedad de Newton, la cual establece que toda partícula en el universo atrae a cualquier otra partícula con una fuerza directamente proporcional al producto de sus masas e inversamente proporcional al cuadrado de la distancia entre ellas. En términos matemáticos, F = k (m1m2/r 2), donde F = fuerza, m1 y m2 son las masas de las dos partículas, r = distancia y k = constante de proporcionalidad.

Otro ejemplo es el de la ley de Ohm, la cual postula que para conductores metálicos dentro de un intervalo limitado de temperatura, la corriente C es proporcional al voltaje V; es decir, C = (1-k)V, donde 1-k es la constante de proporcionalidad. Otros ejemplos de relaciones deterministas son la ley de los gases de Boyle, la ley de la electricidad de Kirchhoff y la ley del movimiento de Newton.

En este texto no interesan tales relaciones deterministas. Por supuesto, de haber errores de medición, por ejemplo, en la k de la ley de la gravedad de Newton, la relación que de otra forma habría sido determinista se convierte en una relación estadística. En esta situación es posible predecir la fuerza en forma aproximada sólo a partir de un valor dado de k (y m1, m2 y r), el cual contiene errores. La variable F se convierte en este caso en aleatoria.

martes, 11 de enero de 2022

Naturaleza del análisis de regresión - Interpretación moderna de la regresión - Ejemplo 8

Por último, un agrónomo tal vez se interese en estudiar la relación entre el rendimiento de un cultivo, digamos de trigo, y la temperatura, lluvia, cantidad de sol y fertilizantes. Un análisis de dependencia de ese tipo facilitaría la predicción o el pronóstico del rendimiento medio del cultivo según la información sobre las variables explicativas. 

El lector puede proporcionar una amplia gama de ejemplos similares de la dependencia de una variable respecto de otra o más variables. Las técnicas del análisis de regresión que se explican en este texto están diseñadas especialmente para estudiar dicha dependencia entre variables.

sábado, 8 de enero de 2022

Naturaleza del análisis de regresión - Interpretación moderna de la regresión - Ejemplo 7

 El director de marketing de una compañía tal vez quiera conocer la relación entre la demanda del producto de su compañía con el gasto de publicidad, por ejemplo. Un estudio de este tipo es de gran ayuda para encontrar la elasticidad de la demanda respecto de los gastos publicitarios, es decir, el cambio porcentual de la demanda en respuesta a un cambio de 1 por ciento, por ejemplo, en el presupuesto de publicidad. Saber esto sirve para determinar el presupuesto “óptimo” de publicidad.

jueves, 6 de enero de 2022

Naturaleza del análisis de regresión - Interpretación moderna de la regresión - Ejemplo 6

 En la economía monetaria se sabe que, si se mantienen constantes otros factores, cuanto mayor sea la tasa de infl ación π, menor será la proporción k del ingreso que la gente deseará mantener en forma de dinero, como se deduce de la figura 1.4. La pendiente de esta recta representa el cambio en k con un cambio en la tasa de inflación. Un análisis cuantitativo de esta relación permite al economista predecir la cantidad de dinero, como proporción del ingreso, que la gente deseará mantener con diversas tasas de inflación.

Interpretación moderna de la regresión


domingo, 2 de enero de 2022

Naturaleza del análisis de regresión - Interpretación moderna de la regresión - Ejemplo 5

 Un economista laboral quizá desee estudiar la tasa de cambio de los salarios monetarios o nominales en relación con la tasa de desempleo. Las cifras históricas aparecen en el diagrama de dispersión de la figura 1.3. La curva de esta figura es un ejemplo de la célebre curva de Phillips, que relaciona los cambios en los salarios nominales con la tasa de desempleo. Un diagrama de dispersión de este tipo permite al economista laboral predecir el cambio promedio en los salarios nominales con una cierta tasa de desempleo. Tal conocimiento sirve para establecer supuestos sobre el proceso inflacionario en una economía, pues es probable que los incrementos en los salarios monetarios se reflejen en incrementos de precios.