6 Modelo de Rasch
6.1 Descripción del modelo de Rasch
El modelo de Rasch es un modelo de medición de variables latentes que estima la habilidad de los individuos en función de la puntuación total observada. Para el estudio de las propiedades de los ítems y las personas utiliza una fórmula para cada ítem, en la que modela la probabilidad de respuesta del ítem en función de la habilidad de las personas y un parámetro de los ítems.
A diferencia de la TCT, este modelo a) usa una escala distinta (logits normalizados), b) brinda estimaciones de los parámetros de los ítems y las personas independientes de la población utilizada o los ítems utilizados, respectivamente y c) no asume que el test es igual de preciso para todo los niveles de habilidad.
Este modelo se caracteriza por el uso del ajuste de los datos al modelo, es decir, que analiza si los datos observados se ajustan a las propiedades esperadas por el modelo planteado.
6.1.1 Paso de puntuaciones totales a logits
Un problema que subyace al uso de las puntuaciones totales como mediciones de la habilidad es que no satisfacen el supuesto de la normalidad. Lo anterior se manifiesta al observar que dos puntuaciones consecutivas muy frecuentes tienen la misma separación que dos puntuaciones consecutivas poco frecuentes; en una escala normal, las primeras deberían estar más cerca que las segundas.
El modelo de Rasch busca obtener una mejor representación de las habilidades de los sujetos, por medio del uso de una escala con unidades logit. La transformación logit de una probabilidad es la siguiente
\[\theta= \ln\left(\frac{p}{1-p}\right)\]
En una estimación inicial de las habilidades de los sujetos, se realiza una transformación logit de las proporciones de respuestas observadas. Esto implica que:
- Las diferencias en las puntuaciones logit serán grandes para proporciones de respuestas observadas altas. Por ej. si \(p_1=.95\) y \(p_2=.90\), se tiene que \(\theta_1=2.95\) y \(\theta_2=2.18\), lo cual da una diferencia de .77 logits.
- Las diferencias en las puntuaciones logit serán pequeñas para proporciones de respuestas observadas medias. Por ej. si \(p_1=.50\) y \(p_2=.55\), se tiene que \(\theta_1=0\) y \(\theta_2=0.20\), lo cual da una diferencia de .20 logits.
Es importante mencionar que esta transformación no es la habilidad estimada por el modelo de Rasch. La habilidad final se obtiene luego de aplicar un método estadístico que permite obtener los parámetros de habilidad que mejor se ajustan a los datos observados, pero manteniendo la lógica de la medición en logits.
6.1.2 Medidas independientes de las personas o ítems que se usen
El modelo de Rasch utiliza el hecho de que el ordenamiento de los ítems según su dificultad es invariante con respecto a la población utilizada, al igual que el ordenamiento de las personas según su puntuación total es invariante con respecto a los ítems utilizados. Por tanto, sin importar los ítems que se utilicen el conjunto de personas evaluadas tendrá el mismo ordenamiento. Esta propiedad permite generar una medida de las habilidades y de las dificultades con la misma escala de intervalo.
Este supuesto permite establecer cuáles ítems tienen una alta probabilidad de haber sido acertados por cada sujeto, según su puntuación observada. De esta manera, una persona con 5 ítems correctos, probablemente obtuvo los 5 ítems más fáciles correctos. Los supuestos anteriores brindan elementos para examinar si la escala propuesta cumple con un conjunto de características apropiadas. Si muchos ítems o personas no presentan los patrones esperados es posible que la escala no funcione apropiadamente.
Finalmente, el ordenamiento de los ítems y las personas brinda un significado de la escala en función de los ítem que es capaz de resolver la persona.
6.1.3 Errores estándar de medida distintos según nivel de habilidad
La precisión de la estimación del nivel de habilidad está asociada a la cantidad de ítems que permiten discriminar entre los niveles de habilidad posibles para el individuo. Las personas con notas altas o bajas obtendrán errores estándar de medida altos debido a que no se cuenta con suficientes ítems que permitan determinar si deberían tener un nivel de habilidad más alto.
6.2 Fórmula
La fórmula matemática del modelo de Rasch que describe la probabilidad de acierto de un ítem \(i\) de una persona \(j\), dada la habilidad de la persona \(\theta_j\) y la dificultad del ítem (\(b_i\)), es la siguiente
\[P(X_{ij}=1|\theta_i,b_j)=\frac{e^{\theta_j-b_i}}{1+e^{\theta_j-b_i}}\]
La curva que modela la probabilidad de esa fórmula en función de \(\theta\) se denomina curva característica del ítem. Un ejemplo de esta curva, con \(b=1\), es la siguiente:
Note que la persona con habilidad igual a la dificultad del ítem posee una probabilidad de 0.5 de acierto. Por tanto, la dificultad de un ítem es el valor de habilidad en el que hay una probabilidad de 0.5 de acierto. Los niveles de la dificultad son los siguientes:
- \(]\infty, -2[\) : Muy fácil
- \([-2,-0.5[\) : Fácil
- \([-0.5, 0.5]\) : Medio
- \(]-0.5, 2]\) : Difícil
- \(]2,\infty[\) : Muy difícil (Hambleton et al, 1991)
Por otro lado, la fórmula del modelo permite estimar las probabilidades de responder un ítem para un nivel de habilidad dado, por ejemplo la probabilidad de una persona con una habilidad de 0 logits en el ítem con dificultad 1 es igual a
\[P(X_{ij}=1|\theta_i=0,b_j=1)=\frac{e^{0-1}}{1+e^{0-1}}=0.27\] Con esta información, también se puede estimar la probabilidad de fallo \(Q(\theta)=1-P(\theta)=0.73\).
6.2.1 Supuestos del modelo
Los principales supuestos del modelo son la unidimensionalidad y la independencia local. El primero es esperable en cualquier modelo de medición que trabaje con instrumentos que miden un único constructo. El segundo indica que la probabilidad de responder un ítem no es afectada por la probabilidad de responder otro ítem.
Para evaluar la independencia local se examinan los estadísticos Q3 de cada pareja de ítems, los cuales brindan el valor de la correlación de los residuos asociados a la modelación de las respuestas de los ítems. Se dice que dos ítems no son independientes si el estadístico Q3 es superior a 0.40 (Linacre).
[1] 0.2346049
6.3 Ejemplo de aplicación del modelo de Rasch
Para ejemplificar el uso del modelo de Rasch se va a utilizar la fórmula reducida de vocabulario. En los 12 ítems.
bTCT b ee
RC2 0.682 -1.128 0.048
RC4 0.210 1.994 0.055
RC6 0.615 -0.687 0.047
RC8 0.545 -0.257 0.046
RC9 0.491 0.078 0.046
RC12 0.701 -1.258 0.049
RC13 0.616 -0.697 0.047
RC15 0.614 -0.685 0.047
RC17 0.715 -1.355 0.050
RC18 0.244 1.723 0.053
RC19 0.184 2.232 0.058
RC20 0.497 0.040 0.046
El gráfico de los primeros dos ítems es el siguiente:
6.4 Estimación de la habilidad
En el modelo de Rasch existe una única estimación de la habilidad, para cada puntuación total observada, esta habilidad se obtiene por medio de un método estadístico que permite obtener los parámetros con los que el modelo se ajusta de mejor manera a los datos.
En el caso del test de vocabulario la tabla de correspondencia de las puntuaciones totales con las habilidades, junto con sus errores estándar de medición, es la siguiente:
Person Parameters:
Raw Score Estimate Std.Error
0 -3.7721633 NA
1 -2.8627626 1.0688996
2 -2.0196696 0.8110062
3 -1.4474259 0.7140030
4 -0.9718993 0.6709538
5 -0.5338829 0.6564692
6 -0.1011756 0.6621812
7 0.3509652 0.6854445
8 0.8470074 0.7258961
9 1.4157265 0.7858317
10 2.1045560 0.8831557
11 3.0688471 1.1226980
12 4.0995221 NA
Cuando se grafican los histogramas de las puntuaciones totales observadas en la TCT y las habilidades estimadas en el modelo de Rasch se puede observar que el segundo histograma presenta una mayor tendencia a una distribución normal. En el caso del test de vocabulario los histogramas son los siguientes:
Además, en cada valor de la habilidad se estima un error estándar de medición, el cual a diferencia de lo observado en la TCT, no es igual para todas las habilidades estimadas. El valor del error estándar de medición se obtiene con la fórmula
\[\sigma_e(\theta)=\frac{1}{\sqrt{I(\theta)}}=\frac{1}{\sqrt{\sum P_i(\theta)Q_i(\theta)}}\]
El inverso del error de medición al cuadrado se denomina función de información. Esta función indica en cuáles valores de la habilidad se obtienen las estimaciones más precisas del test. Un valor de la curva de información superior a 16 indica una precisión bastante alta, ya que el error de medición sería de apenas .25 unidades. En el gráfico adjunto se presenta la función de información del test:
plotINFO(mod, type="test")
6.4.1 Intervalo de confianza
El intervalo de confiana de la habilidad estimada para los individuos puede calcularse con la fórmula \(\theta\pm Z_{1-\alpha/2}\sigma_e\), donde \(\sigma_e\) corresponde al error estándar de medición, el cual varía en función de las habilidades estimadas.
En el ejemplo del test de voacabulario, en el caso de una persona con habilidad \(\theta=-2.86\) y \(eem=-1.07\), el intervalo de confianza del 95% es
\[-2.86\pm 1.96\cdot -1.07 = ]-4.96,-0.77[\] Nótese que este intervalo es bastante amplio, pero para una persona con habilidad de \(\theta=-0.53\), el error estándar de medida es 0.66, que es casi la mitad del error estándar del caso previo. En este caso el intervalo de confianza del 95% de la habilidad es \(]-1.82, 0.75[\).
Por último, nótese cómo varían los intervalos de confianza dentro del modelo de Rasch, en comparación con la TCT.
6.4.2 Mapa de ítems-personas
En la formulación del modelo de Rasch, las habilidades de las personas y las dificultades de los ítems se estiman en la misma escala. Esta propiedad permite graficar estos parámetros en una misma gráfico y poder observar cuáles ítems tienen alta probabilidad de ser resueltos por un grupo de examinados (\(p>.50\)). El gráfico de ítems-personas del test de vocabulario es el siguiente:
En el gráfico se puede observar que hay varios grupos de personas que no tienen la habilidad suficientes para responder correctamente todos los ítems. Por otro lado, se puede ver que las personas con un nivel de habilidad de 1 pueden resolver 9 ítems correctamente, pero 3 no.
6.5 Ajuste del modelo
Existen varios índices que permiten evaluar el ajuste de los ítems y las personas al modelo de Rasch. El coeficiente infit MSQ señala patrones inesperados de respuestas, como repuestas incorrectas de las personas para las cuales los ítems están diseñados. El outfit MSQ señala patrones con respuestas correctas inesperadas, lo cual puede ser derivado del azar. Los coeficientes infit y outfit mayores a 2 indican problemas de ajuste de los ítems.
Cuando se presentan persona o ítems que no ajustan al modelo se pueden eliminar de la base de datos, para volver a estimar el modelo y obtener coeficientes más confiables. Esta es una decisión que debe ser claramente justificada.
En el caso del test de vocabulario se obtuvieron los siguientes valores de infit MSQ y outfit MSQ:
outfitMSQ infitMSQ
RC2 1.0764276 1.0865182
RC4 1.1631104 1.1234735
RC6 0.9628500 1.0345188
RC8 0.7590495 0.8543401
RC9 0.7940039 0.8797156
RC12 0.8691573 0.9251546
RC13 0.7939826 0.9000921
RC15 1.2131925 1.1866643
RC17 0.8798687 0.9422951
RC18 0.8308434 0.9380916
RC19 0.7465545 0.8482042
RC20 0.7660805 0.8498880
Se puede observar que no se presentó ningún ítem con problemas en el infit o en el outfit.
Por otro lado, también se puede analizar el ajuste de las personas la modelo, por medio de los mimos indicadores. En este análisis se puede aumentar el valor del punto de corte a 4, para solamente centrarse en los casos realmente problemáticos. Los valores del outfit superiores a 4 observados en el test fueron los siguientes:
4185 9481 595 10093 4247 727 3993 9849
10.817098 10.817098 7.059415 7.059415 6.715586 6.413019 6.413019 6.367405
12001 692 8919 1054 10060 5539 10279
6.367405 6.241982 5.642939 4.954033 4.318249 4.027194 4.027194
El patrón de respuestas, en los ítems ordenados según dificultad, de la persona con el outfit más grande fue el siguiente:
RC17 RC12 RC2 RC13 RC6 RC15 RC8 RC20 RC9 RC18 RC4 RC19
4185 0 0 0 0 0 0 0 0 0 0 1 0
Se puede observar que el outfit detectó un patrón con una pregunta respondida correctamente, de forma inesperada. La persona con una única respuesta correcta posee una habilidad insuficiente para responder algún ítem de la prueba, en especial es claramante insuficiente para responder el degundo ítem más difícil.
Por otro lado, los valores de los infit de las personas fueron los siguientes:
9803 11838 555 4888 4724 3792 7280 2752
2.403993 2.347117 2.330567 2.240789 2.170763 2.110416 2.106896 2.084432
3158 10854 9782 11403 9790 7690 2062 5464
2.056182 2.052524 2.008757 1.995136 1.985555 1.984136 1.975599 1.954299
5653 3032 340 3914
1.953607 1.933604 1.919088 1.896491
Ninguno de los infit mostró un valor extremo.
Finalmente, se puede presentar un índice del ajuste total del modelo a los datos. El SRMSR (standardized root mean square root of squared residuals, Maydeu-Olivaras, 2013) compara las correlaciones observadas de los residuos de los ítems con los valores estimados por el modelo. Se espera que este índice sea menor a 0.08. En el caso del ejmeplo de vocabulario el valor fue
SRMSR
0.05385357
6.6 Sintaxis con R
Cargar la base de datos
<-read.csv("Vocab1.csv",sep=",") BASE
Seleccionar el conjunto de ítems
<-subset(BASE,engnat==2)
BASE<-c(82, 84, 86, 88, 89, 92, 93, 95, 97, 98, 99, 100)
num<-BASE[,num]
ITEMSrownames(ITEMS)<-1:dim(ITEMS)[1]
Comprobar supuesto de independencia local
library(TAM)
<- tam(ITEMS)
fit0 <- tam.modelfit(fit0)
Res0 <- Res0$Q3.matr
Q3
max( abs(Q3) , na.rm=T )
round( Q3, 2)
Estimar el modelo
library(eRm)
<- RM(ITEMS) fit
Ver los coeficientes de los ítems
<-data.frame(-fit$beta,fit$se.beta)
Res Res
Ver las habilidades de las personas
<-person.parameter(fit)
pp pp
Graficar una curva característica del ítem
plotICC(fit, 1) ##SELECCIONAR CURVA DE INTERÉS
Gráficar varias curvas características del ítem
plotjointICC(fit, item.subset = c(1,2), legpos = "left") ##SELECCIONAR CURVA DE INTERÉS
Graficar la función de información
plotINFO(fit, type="test")
Graficar el mapa de item-personas
plotPImap(fit)
Evaluar el infit y el outfit de los ítems
<-itemfit(pp)
itemsfit itemsfit
Generar el infit y el outfit de las personas
<-personfit(pp)$p.infitMSQ
infitp<-personfit(pp)$p.outfitMSQ outfitp
Ver la población con outfit>4
<-outfitp[outfitp>3.99]
outfit4 outfit4
Crear una base sin individuos con outfit>4
<-as.numeric(names(outfitp[outfitp>3.99]))
id<-ITEMS[-id,] ITEMS2
Evaluar el ajuste global del modelo
#library(TAM)
#fit0 <- tam(ITEMS)
#Res0 <- tam.modelfit(fit0)
$fitstat[3] Res0
6.7 Guía de trabajo
Utilice los ítems 2, 4, 6, 8, 9, 12, 13, 15, 17, 18, 19 y 20 de la base vocabulario, sin delimitar a población hablante nativa, para contestar las siguientes preguntas.
Justifique si la base de datos cumple los supuestos del modelo de Rasch (2 puntos).
Estime las dificultades de los ítems (1 punto).
Para el ítem más difícil de la base de datos realice los siguientes análisis:
- Presente su curva característica del ítem (1 punto).
- Determine las probabilidades de acierto de una persona con una habilidad de 0 logits y otra con una habilidad de 1 logit (2 puntos).
- Presente el infit y el outfit del ítem. Indique si el ítem presenta algún problema de ajuste al modelo (2 puntos).
Encuentre la persona con el outfit más grande de la base y explique por qué posee ese valor (2 puntos).
Calcule el intervalo de confianza de la habilidad para una persona con 6 preguntas correctas (1 punto).
Presente el mapa de items-personas e indique dos conclusiones que se pueden hacer de este mapa (3 puntos).
6.8 Referencias
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage Publications, Inc.
https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1470&context=pare