R-Cuadrado es una medida estadística que representa la proporción de la varianza de una variable dependiente que es explicada por una variable o variables independientes en un modelo de regresión. Varía de 0 a 1, indicando la bondad del ajuste del modelo.
Entendiendo R-Cuadrado
Definición e Interpretación
- Rango de Valores: Los valores de R-Cuadrado varían de 0 a 1.
- Interpretación:
- Un R-Cuadrado de 0 significa que el modelo no explica ninguna de la variabilidad de los datos de respuesta en torno a su media.
- Un R-Cuadrado de 1 indica que el modelo explica toda la variabilidad de los datos de respuesta en torno a su media.
- Un valor más cercano a 1 implica un mejor ajuste, mientras que un valor más cercano a 0 indica un mal ajuste.
Cálculo de R-Cuadrado
R-Cuadrado se puede calcular utilizando la siguiente fórmula:
R² = 1 – (SSres / SStot)
- SSres: La suma de cuadrados de los residuos (las diferencias entre los valores observados y los valores predichos).
- SStot: La suma total de cuadrados (la varianza de los datos observados).
Ejemplo de R-Cuadrado
Considere un análisis de regresión lineal simple donde queremos analizar la relación entre el número de horas estudiadas y las calificaciones obtenidas en un examen.
- Supongamos que tenemos los siguientes datos:
- Horas Estudiadas: [1, 2, 3, 4, 5]
- Calificaciones Obtenidas: [50, 55, 65, 70, 80]
- Suponga que el modelo de regresión lineal nos proporciona las calificaciones predichas equipadas con el modelo.
- La suma de cuadrados de los residuos (SSres) podría ser calculada de la siguiente manera:
– Calificaciones Predichas: [52, 57, 62, 67, 72] – Residuos: [50-52, 55-57, 65-62, 70-67, 80-72] = [-2, -2, 3, 3, 8] – SSres = (-2)² + (-2)² + (3)² + (3)² + (8)² = 4 + 4 + 9 + 9 + 64 = 90 - La suma total de cuadrados (SStot) se calcula como:
– Calificación Media = (50 + 55 + 65 + 70 + 80) / 5 = 62
– SStot = (50-62)² + (55-62)² + (65-62)² + (70-62)² + (80-62)² = 144 + 49 + 9 + 64 + 324 = 590 - Sustituyendo los valores en la fórmula de R-Cuadrado:
R² = 1 – (90 / 590) ≈ 0.846
Esto significa que aproximadamente el 84.6% de la variabilidad en las calificaciones del examen puede ser explicada por el número de horas estudiadas, indicando una fuerte relación entre las dos variables.