Hasta el momento nos hemos concentrado en el problema de estimar los coeficientes de regresión, sus errores estándar y algunas de sus propiedades. Se considerará ahora la bondad del ajuste de la línea de regresión ajustada a un conjunto de datos: es decir, se verá qué tan "bien" se ajusta la línea de regresión a los datos. De la figura 3.1, es claro que si todas las observaciones fueran a caer en la linea de regresión, se obtendría un ajuste "perfecto, pero raramente se presenta este caso. Generalmente, hay algunas ûi positivas y algunas ûi negativas. Se tiene la esperanza de que estos residuos alrededor de la muestra serán lo más pequeños posibles. El coeficiente de determinación r² (caso de dos variables) o R² (regresión múltiple) es una medida resumen que nos dice qué tan bien se ajusta la línea de regresión muestral a los datos.
Antes de mostrar la forma como se calcula r², considérese una explicación heurística de r² en términos de una herramienta gráfica, conocida como el diagrama de Venn o de Ballentine, que aparecen en la figura 3.9.
En esta figura el circulo Y representa la variación en la variable dependiente Y y el círculo X representa la variación en la variable explicativa X. La intersección de los dos círculos (el área sombreada) indica la medida en la cual la variación en Y es explicada por la variación en X (por ejemplo, a través de una regresión MCO). Entre mayor sea la medida de la intersección, mayor será la variación en Y que es explicada por X. El r² es simplemente una medida numérica de esta intersección. En la figura, amedida que se va de izquierda a derecha, el área de la intersección aumenta, es decir, sucesivamente hay una porpoción cada vez mayor de la variación en Y que está explicada por X. En resumen, r² aumenta. Cuando no hay intersección, obviamente r² es cero, pero cuando la intersección es completa, r² es 1, puesto que el 100 por ciento de la variación en Y está explicada por X. Como se verá pronto, r² se encuentra entre 0 y 1.
No hay comentarios.:
Publicar un comentario