La validez se refiere al grado en que un instrumento mide realmente la variable que pretende medir. Por ejemplo, un instrumento válido para medir la inteligencia debe medir la inteligencia y no la memoria.
Validez de Criterio
La
validez de criterio de un instrumento de medición se establece al comparar sus resultados
con los de algún criterio externo que pretende medir lo mismo. El principio de la
validez de criterio, es sencillo: si diferentes instrumentos o criterios miden
el mismo concepto o variable, deben arrojar resultados similares. Por ejemplo,
una nueva prueba de inteligencia podría ser comparada estadísticamente con una
prueba de CI estándar. Si existe una alta correlación entre los dos conjuntos
de datos, entonces la validez de criterio es alta.
Validez de Constructo
Según
Hurtado (2010) la validez de constructo intenta determinar en qué medida un
instrumento mide un evento en términos de la manera como éste se conceptualiza,
y en relación con la teoría que sustenta la investigación. Es decir, se refiere
a qué tan bien un instrumento representa y mide un concepto teórico. Y debe
explicar cómo las mediciones del concepto o variable se vinculan de manera congruente
con las mediciones de otros conceptos correlacionados teóricamente.
La
validez de constructo incluye tres etapas:
- Sobre la base de la revisión de la literatura, se establece y especifica la relación entre el concepto o variable medida por el instrumento y los demás conceptos incluidos en la teoría, modelo teórico o hipótesis.
- Se asocian estadísticamente los conceptos y se analizan cuidadosamente las correlaciones.
- Se interpreta la evidencia empírica de acuerdo con el nivel en el que se clarifica la validez de constructo de una medición en particular.
Validez de Contenido
Se
refiere al grado en que un instrumento refleja un dominio específico de
contenido de lo que se mide. Es el grado en el que la medición representa al
concepto o variable medida (The SAGE Glossary of the Social and Behavioral Sciences,
2009b y Bohrnstedt, 1976 Citado por Hernández Sampieri y otros; 2010). Por
ejemplo, una prueba de operaciones aritméticas no tendrá validez de contenido
si incluyera sólo problemas de resta y excluyera problemas de suma,
multiplicación o división. Es decir, Un instrumento de medición requiere tener representados
a todos o la mayoría de los componentes del dominio de contenido de las
variables que se van a medir.
Validez Aparente
Según
Carvajal, Centeno, Watson, Martínez, & Sanz (2011) la validez aparente es
una forma de validez de contenido que mide el grado en el que los ítems parecen
medir lo que se proponen. Es el método más sencillo para medir la validez del
instrumento. Se considera la parte del “sentido común” de la validez de
contenido que asegura que los ítems del instrumento sean adecuados. Consiste en
que algunas personas (a quienes se le aplica, quienes lo aplican y quienes
autorizan su uso), argumenten si consideran relevantes los ítems incluidos en
un instrumento. Cuantas más personas intervengan, mayor validez tendrá esta
técnica.
Según Hurtado (2010) cuando el contenido de un instrumento parece inadecuado (así no lo sea), y las personas que participan, no les encuentran sentido a los ítems, el resultado es una cooperación escasa, lo cual puede a la larga afectar las respuestas y, por ende, los resultados.
Validez Total
Validez
Total = Validez de Contenido + Validez de Criterio + Validez de Constructo
Confiabilidad:
Según Mendoza (2009) La confiabilidad
de un instrumento de medición se refiere al grado de precisión o exactitud de
la medida, en el sentido de que si aplicamos repetidamente el instrumento al
mismo sujeto u objeto (sujeto u objeto estable en el tiempo) produce iguales
resultados.
Confiabilidad de consistencia Interna
Según
Hurtado (2010) Cuando un instrumento es sensible a eventos extraños, al captar
sus variaciones, las mediciones del evento de estudio cambian de una aplicación
a otra, sin que tal evento haya cambiado realmente. Por lo tanto, una
estimación de la confiabilidad es la consistencia interna entre los ítems, es
decir, el grado en que esos ítems miden el mismo evento. Esta consistencia
interna se puede expresar a través de correlaciones.
Por
otra parte, una prueba también puede ser poco confiable debido a que su
contenido sólo abarca una mínima parte de los contenidos que se pretenden medir.
Así, al aplicar una prueba semejante, o que pretenda medir el mismo evento, pero
con ítems que abarquen un mayor rango de contenidos, los resultados de la
confiabilidad de ambas pruebas serán diferentes.
Para
calcular este tipo de confiabilidad, existen varias técnicas:
-
Pruebas paralelas,
-
División por mitades.
-
Küder-Richardson y Alfa de Cronbach.
Pruebas Paralelas (método de formas alternativas)
Consiste
en diseñar dos instrumentos que midan el mismo evento (forma A y forma B),
denominados test paralelos. Los ítems correspondientes entre sí en uno y otro instrumento
deben ser similares en contenido, instrucciones, tipo de preguntas y
dificultad, de modo que, al medir con ambos, se deben obtener los mismos
resultados que si se midiera dos veces con uno de ellos. El coeficiente de
confiabilidad se obtiene calculando la correlación entre los puntajes obtenidos
de ambos instrumentos.
Una
de las limitaciones es que, en la realidad, es muy difícil obtener dos pruebas
realmente paralelas. Otra de las desventajas es el efecto que el primer
instrumento tiene sobre los puntajes del segundo. Por último, implica un doble
trabajo de construcción de instrumentos, dado que sólo se utilizará uno de
ellos para fines de la investigación.
División por Mitades
Según
Hurtado (2010) Para aplicar esta técnica, el investigador, en lugar de
construir dos test paralelos, divide el instrumento en mitades y considera que
cada mitad constituye un test paralelo. Para obtener las mitades se sigue el procedimiento
señalado a continuación:
-
Se aplica el instrumento y se corrige.
-
Se colocan los ítems en la matriz de puntajes en orden de frecuencia de solución
correcta (el que contestó correctamente el mayor número de casos al principio,
el siguiente en segundo lugar...).
-
Se forma un test con los ítems pares y otro test con los ítems impares. El ordenar
los ítems de esta manera propicia que las mitades tengan igual nivel de
dificultad, así como igual media y varianza.
Existe
el riesgo de que al agrupar queden ítems de un mismo tipo en una mitad e ítems de
otro tipo en la otra mitad del instrumento, de modo que al final el contenido
de las mitades es diferente. Por lo anterior esta técnica es más conveniente en
la medida que el instrumento es más homogéneo, es decir, que los ítems midan la
misma característica y sean similares entre sí. Una vez obtenidas las mitades,
se calcula el coeficiente de correlación entre ambas mitades.
La técnica de Alfa de Cronbach y la fórmula Kuder-Richardson
Estas
técnicas se basan en el supuesto de que, si todos los ítems del instrumento
miden el mismo evento, podría asumirse que cada Ítem constituye una prueba
paralela. En consecuencia, se considera que el instrumento es confiable si los
resultados de todos los ítems son similares, es decir, si existe una alta
correlación entre ellos. Dos fórmulas que se pueden aplicar para el cálculo de
esta confiabilidad son el Alfa de Cronbach y la fórmula de Küder- Richardson.
Kuder Richardson
La
fórmula de Küder-Richardson mide la consistencia interna de un instrumento
cuando las respuestas a cada ítem son dicotómicas (Si/No, A favor/En contra…) y
pueden calificarse como 1 ó 0 cada una.
La
ecuación KR20 (coeficiente de consistencia interna) del instrumento,
proporciona la media de todos los coeficientes de división por mitades para
todas las posibles divisiones del instrumento en dos partes.
La
fórmula para calcular la confiabilidad de un instrumento con n ítems, es:
Esta
es la fórmula 20 de Küder-Richardson (KR20), donde:
k=
Número de ítems del instrumento.
p=
Porcentaje de personas que responde correctamente cada ítem.
q=
Porcentaje de personas que responde incorrectamente cada ítem.
St
= Varianza total del instrumento.
Como
ejemplo práctico vamos a aplicar la fórmula de Küder-Richardson a un
instrumento de 6 ítems aplicado 15 veces.
Para
facilitar el cálculo de la confiabilidad con la técnica Kuder-Richardson es conveniente
construir la matriz de puntajes del instrumento Ítem por ítem, tal como se
presenta en la siguiente imagen:
Imagen.
Matriz de Unidades
Para
los anteriores datos el
cálculo de la confiabilidad con la fórmula Kuder-Richardson20, es el
siguiente:
St2 = 19,6/15 = 1,31 k= 6 Σ p.q = 1,29
Kuder Richarson20 =
Entonces:
Kuder Richarson20 =
Como nos damos cuenta,
al tener la matriz de unidades es muy fácil obtener el cálculo de confiabilidad
(Kuder Richardson).
La ventaja de la
técnica Kuder-Richardson es que permite calcular la confiabilidad con una sola
aplicación del instrumento y no requiere el diseño de pruebas paralelas. Sin
embargo, su limitación reside en que es aplicable sólo a instrumentos con ítems
dicotómicos.
Alpha de Cron-Bach
Cuando
las respuestas a los ítems no son dicotómicas, sino tienen alternativas de
respuesta graduadas, no es posible aplicar la fórmula de Küder-Richardson. En
este caso se utiliza el coeficiente de confiabilidad Alfa-Cronbach. La fórmula
es la siguiente:
Donde:
k=
Número de ítems del instrumento.
Sí2
= Varianza de cada ítem.
St2=
Varianza del instrumento.
La
fórmula para Si2 es:
Donde:
R1 es la respuesta al ítem dada por el
encuestado 1; R2 la respuesta dada al ítem por el
encuestado 2 y así sucesivamente…
x̄1
es la media de la respuesta de los encuestados al ítem 1, x̄2 es la media de la respuesta de los
encuestados al ítem 2 y así sucesivamente…
n es el número de ítems.
En la siguiente imagen se muestra la matriz de unidades de un instrumento de 5 ítems que fue aplicado a 4 personas, asumiendo que cada ítem tiene cinco respuestas o alternativas, donde cada una fue previamente codificada de 1 a 5.
Basado en lo
anterior:
Test-Retest (medida de estabilidad)
El test-Retest
es la prueba de confiabilidad que consiste en aplicar un mismo instrumento a
los mismos individuos en dos momentos distintos, bajo las mismas condiciones.
Uno de los problemas es el posible
efecto de aprendizaje del sujeto que influirá en sus resultados, cuando realiza
por segunda vez la prueba.
Por lo tanto,
una fuente de varianza de error a controlar es el muestreo del tiempo. Este
efecto se elimina, o al menos queda paliado, si se deja transcurrir un tiempo
suficiente entre ambas aplicaciones de la prueba. Esta solución sin embargo no
siempre es plausible, bien porque no se pueda tener disponibles a los mismos
sujetos en un tiempo posterior conveniente, o bien porque el rasgo que se está
evaluando pueda sufrir también variaciones en ese intervalo de tiempo. En
general, se utiliza el coeficiente de correlación producto – momento de Pearson
para obtener el coeficiente de confiabilidad Test – Retest.
0 comments:
Publicar un comentario