11 ejemplos de validez aparente
La validez aparente se refiere a si una medida parece evaluar lo que se supone que debe evaluar.
El término clave aquí es "aparece". La pregunta que plantea es:
“¿Parece que la prueba mide lo que ha sido diseñada para medir?”
Este tipo de evaluación de la validez es subjetiva y generalmente la realizan personas que utilizarán la escala o expertos en el dominio de estudio.
Ejemplos de validez aparente
Los tres ejemplos principales de formas de lograr la validez aparente son:
- Consulte a un panel de expertos en investigación sobre el diseño de su estudio
- Consulte a un panel de profesionales de la fuerza laboral sobre el diseño de su estudio
- Consultar a los participantes de la investigación sobre el diseño de su estudio durante una prueba piloto
A continuación se presentan los detalles de diez ejemplos y estudios de la vida real.
1. Panel de Expertos en Investigación
Probablemente una de las formas más comunes de evaluar la validez aparente es el uso de un panel de expertos. El investigador contacta a un pequeño grupo (2-5) de destacados expertos en el dominio de la escala que están midiendo.
La escala se envía a cada miembro del panel y ellos califican cada elemento de la escala en términos de validez aparente. Ese juicio profesional se cuantifica solicitándoles que indiquen su nivel de acuerdo con la siguiente pregunta: Este artículo es apropiado para medir ____________.
Cada miembro del panel indicaría en qué medida está de acuerdo o en desacuerdo con esa declaración en una escala de Likert, como se ve a continuación.
1 | 2 | 3 |
---|---|---|
discrepar | Ni de acuerdo ni desacuerdo | aceptar |
Si la escala tiene validez aparente, los expertos tendrán un alto grado de acuerdo en cada ítem.
Cuánto acuerdo es necesario para concluir que una escala tiene validez aparente está abierto a debate y puede variar dependiendo de las calificaciones del panel que se comparen.
2. Panel de Profesionales
Este ejemplo de cómo evaluar la validez aparente es básicamente lo mismo que usar un panel de expertos en investigación. Sin embargo, hay situaciones en las que puede ser más apropiado preguntar a profesionales en activo que a investigadores.
Por ejemplo, suponga que está desarrollando un cuestionario que se entregará a una población específica, como personas que buscan tratamiento para una fobia o participantes en asesoramiento matrimonial.
Entonces, sería mejor pedir la opinión de los profesionales de la salud mental que trabajan con esa población a diario.
Los investigadores pueden tener alguna experiencia en aspectos muy específicos del dominio, pero pueden tener muy poco contacto directo con la población bajo estudio. En este caso, los profesionales de la salud mental serían mejores para evaluar la validez aparente del cuestionario.
3. Panel de participantes de la investigación
Otra forma de probar la validez aparente es consultar a los participantes de la investigación. A menudo, esto implica hacer una prueba piloto, luego hacer un seguimiento con los participantes de la investigación y preguntarles qué tan válidas fueron realmente las preguntas de una prueba.
Hablar con los participantes de la investigación durante un piloto puede mejorar significativamente la calidad de la prueba en iteraciones futuras. Los participantes brindan retroalimentación de una manera naturalista que no solo está contenida dentro del mundo teórico de las ciencias académicas.
Por ejemplo, los participantes pueden resaltar que hizo preguntas válidas, pero que también se perdió otras preguntas extremadamente importantes que darían una visión más holística del estudio. Esto puede dar lugar a cambios en la prueba que mejorarán tanto la validez aparente como la calidad general de la prueba.
4. Estadística Kappa de Cohen
El Kappa de Cohen es un procedimiento estadístico que se puede aplicar en una amplia gama de situaciones que involucran a dos evaluadores.
Primero, a cada calificador se le entrega una copia de la escala o cuestionario. Se les pide que simplemente indiquen “sí” o “no” para cada ítem; “sí” significa que el ítem mide el constructo y “no” significa que no lo hace.
El siguiente paso consiste en utilizar una fórmula estadística para realizar los cálculos necesarios. Puede optar por hacerlo a mano si lo desea, o ingresar los datos en un programa de computadora como SPSS y dejar que la computadora haga todo el trabajo.
La salida proporcionará un número que oscila entre 0 y 1. Si el resultado es 0, significa que no hubo absolutamente ningún acuerdo entre los evaluadores. Si el resultado es 1, significa que estuvieron de acuerdo el 100 % de las veces. Por lo tanto, cuanto más cerca de 1, mejor será la validez aparente.
5. Cuestionario de Percepción de Habilidades Motoras
Los jóvenes con discapacidad visual (YVL) tienden a ser más bajos en la actividad física porque tienen una competencia motora más baja. Esto conduce a un mayor comportamiento sedentario y, con el tiempo, a un riesgo de obesidad.
Para realizar investigaciones sobre cómo las percepciones de los padres sobre las habilidades motoras afectan las elecciones de comportamiento de los YVL, es importante contar con un cuestionario sólido que evalúe la percepción de la competencia motora (PMC).
Por ello, un grupo de investigadores (Stribing et al., 2021) con experiencia trabajando con esta población generó 50 preguntas para padres sobre la motricidad de sus hijos.
Luego, el equipo distribuyó las preguntas a 22 investigadores en este dominio. Cada experto calificó cada pregunta en una escala de 5 puntos según los siguientes criterios:
¿En qué medida es relevante esta pregunta para los padres de YVL?
- 0 = N/A
- 1 = muy mal
- 2 = mal
- 3 = algo
- 4 = aceptable
- 5 = muy aceptable
Se analizaron las calificaciones y se incluyó un ítem en el cuestionario final si se calificaba como aceptable al menos el 80% de las veces. Se eliminaron los ítems con calificaciones por debajo del 80%.
El resultado final es un cuestionario que tiene validez aparente según lo determinen los expertos.
6. Nuevo profesor de matemáticas
Los nuevos maestros que crean cuestionarios para sus alumnos a menudo encuestan a los maestros más experimentados para obtener su opinión sobre si el cuestionario tiene validez aparente.
Ser un nuevo maestro puede ser emocionante y estresante. Enseñar matemáticas avanzadas en una escuela secundaria exclusiva para estudiantes superdotados también puede ser desalentador.
Entonces, una maestra recientemente licenciada quiere asegurarse de que su primera prueba sea justa y desafiante.
Para ayudar a evaluar si la prueba está midiendo lo que se supone que debe medir y si tiene el nivel de dificultad adecuado, le pide a varios de sus colegas más experimentados en la escuela que le echen un vistazo. Cada uno tiene experiencia con el curso y el tipo de estudiantes.
Ella proporciona una tabla de calificación que incluye una fila para cada pregunta. Los maestros califican cada pregunta en términos de:
- Nivel de dificultad y
- Adecuación para los estudiantes.
También hay espacio para comentarios sobre cada pregunta.
Después de que se devuelven las calificaciones, la maestra examina el nivel de acuerdo entre sus colegas y sus comentarios para tomar una decisión sobre cada elemento de la prueba individualmente. Eventualmente, tiene una prueba que está segura de que es apropiada para sus alumnos.
7. Sentimientos de agotamiento
Un empleador puede usar un cuestionario para probar si sus empleados se sienten agotados. Para probar la validez aparente, le pide a una cohorte más pequeña de empleados que brinden comentarios sobre si el cuestionario medirá efectivamente el agotamiento.
El director de recursos humanos está interesado en comprender mejor por qué tantos empleados de la empresa se reportan enfermos. Tiene el presentimiento de que se debe al estrés en el lugar de trabajo porque la empresa recientemente redujo su tamaño y pidió a los empleados restantes que trabajaran más horas.
Sin embargo, nunca ha experimentado agotamiento, por lo que no está seguro de si las preguntas que ha generado para una encuesta son adecuadas. Decide enviar el cuestionario a 20 empleados que han experimentado agotamiento (basado en sus archivos de personal).
Le pide a cada uno que califique cada pregunta sobre qué tan bien el ítem mide el sentimiento de agotamiento (1=sí, mide los sentimientos de agotamiento, 2=no, no lo hace).
Cuando se devuelven las calificaciones, crea una tabla que muestra las puntuaciones de cada elemento. Decide descartar una pregunta si más del 80% de los empleados le dieron una calificación de 2.
Al final, tiene un cuestionario sobre el agotamiento que tiene validez aparente para las personas que experimentan el fenómeno.
8. Escalas de desarrollo de bebés y niños pequeños de Bayley
Las Escalas de Desarrollo Infantil de Bayley (BSID, por sus siglas en inglés) evalúan la comportamiento cognitivo, del lenguaje, socioemocional, motor y adaptativo de bebés y niños pequeños. La prueba se ha refinado a través de encuestas de paneles de expertos a lo largo de los años para mejorar su validez aparente.
Los hospitales pueden usar el BSID para evaluar el desarrollo de un bebé y revelar si el bebé está progresando según las normas esperadas o si está experimentando un retraso en el desarrollo.
El desarrollo de la prueba comenzó en la década de 1960 y ha pasado por varias revisiones desde entonces.
Para evaluar la validez aparente, era extremadamente importante elegir sabiamente un panel de expertos, como pediatras con considerable experiencia.
Dado que el BSID tiene un propósito muy importante, la validez aparente fue solo la primera forma de validez evaluada. De hecho, durante las últimas décadas, la escala ha sido sometida a considerables pruebas y refinamientos.
9. El WHOQOL
La evaluación de la calidad de vida WGOQOL logró la validez aparente al consultar a un panel de expertos y individuos regulares de una variedad de orígenes culturales.
¿Qué diablos es un WGOQOL? Este acrónimo significa Evaluación general de la calidad de vida de la Organización Mundial de la Salud. La escala fue diseñada para “… evaluar la percepción de los encuestados y la evaluación subjetiva de varios aspectos de la calidad de vida” (Saxena & van Ommeren, 2005, p. 975).
Como puede imaginar, tratar de desarrollar una encuesta de "calidad de vida" que pueda usarse en todo el mundo fue una tarea abrumadora. La razón más obvia es que hay tantas culturas con tantas variaciones en lo que se define como “calidad” de vida.
En el caso del WHOQOL, la validez aparente se evaluó inicialmente mediante la creación de grupos focales transculturales en varios centros de campo (Bangkok, Bath, Madrás, Melbourne, Panamá, San Petersburgo, Seattle, Tilburg y Zagreb). Los participantes en los grupos focales estaban formados por expertos y individuos de la población general.
Esos grupos examinaron y discutieron los elementos en la escala y luego los desarrolladores seleccionaron los elementos para su inclusión en consecuencia.
10. Encuesta de satisfacción del cliente
Si una encuesta de satisfacción del cliente es demasiado amplia y no hace preguntas directamente relacionadas con la experiencia del cliente, tendrá poca validez aparente y probablemente provocará el fracaso de la encuesta.
Un banco nacional ha renovado su servicio al cliente. La versión mejorada incluye representantes de capacitación para citar la política de la empresa en varios dominios de quejas y tecnología de respuesta automática que enruta las llamadas de los clientes.
El BoD gastó recursos financieros considerables en la nueva iniciativa y los clientes son encuestados después de que sus llamadas son atendidas por representantes, con ejemplos de preguntas que incluyen:
¿Qué tan satisfecho está con las tasas hipotecarias del banco?
¿Recomendaría abrir una cuenta de ahorros a otras personas?
¿Le parece conveniente el horario de atención del banco?
Después de 6 meses, se entrega a los ejecutivos un informe sobre el nuevo programa. Los resultados son desconcertantes. Casi el 90% de los clientes no completaron la encuesta.
Se inició un estudio de seguimiento, que reveló que los clientes abandonaron la encuesta porque las preguntas tenían muy poco que ver con el asunto por el que llamaron. Además, los clientes querían quejarse de sus frustraciones con el programa de respuesta automática y los representantes simplemente citaban la política de la empresa en lugar de resolver sus problemas. Esos problemas no estaban en la encuesta en absoluto.
Este es un ejemplo de lo que sucede cuando una encuesta no tiene validez aparente con las personas que la responden: no la toman en serio y la abandonan.
11. Entrenador virtual de habilidades electroquirúrgicas (VEST)
Puede probar la validez aparente después de que se realizó un estudio encuestando a los participantes. Esto se hizo con el aparato Virtual Electrosurgical Skill Trainer (VEST).
Cuarenta y nueve profesionales experimentados completaron la capacitación y luego se les pidió que respondieran un cuestionario de 16 ítems y calificaran la utilidad del simulador VEST en una escala de 5 puntos.
La mayoría de las preguntas (12 de 13) recibieron una calificación promedio de 3 o más (92 %), mientras que cinco preguntas recibieron una calificación promedio de 4 o más (38 %).
Por lo tanto, los resultados indicaron que el simulador VEST tiene una validez aparente aceptable según lo determinado por un panel de profesionales experimentados (Dorozhkin et al., 2017).
Conclusión
Tal como lo transmitió el autor intelectual de las pruebas psicológicas, Lee J. Cronbach (1916–2001), no se debe subestimar la importancia de la validez aparente:
“Cuando un paciente pierde la fe en el medicamento que le receta su médico, éste pierde gran parte de su poder para mejorar su salud. Puede omitir dosis y, al final, decidir que los médicos no pueden ayudarlo y dejar que el tratamiento termine por completo. Por razones similares, cuando se selecciona una prueba, se debe considerar cuán valioso le parecerá al participante que lo toma y a otros profanos que verán los resultados”. (Cronbach, 1970, pág. 182).
Por esta razón, los psicólogos y otros investigadores hacen todo lo posible para evaluar la validez aparente de sus herramientas de medición y capacitación.
Referencias
Cronbach, LJ (1970). Fundamentos de las pruebas psicológicas. Nueva York: Harper & Row.
Dorozhkin, D., Olasky, J., Jones, DB, Schwaitzberg, SD, Jones, SB, Cao, CG, … & De, S. (2017). Simulador de entrenamiento virtual de incendios OR: diseño y validez aparente. Endoscopia Quirúrgica, 31(9), 3527-3533.
Hardesty, DM y Bearden, WO (2004). El uso de jueces expertos en el desarrollo de escalas
Implicaciones para mejorar la validez aparente de las medidas de construcciones no observables. Revista de Investigación Empresarial, 5798-107.
Saxena, S. y van Ommeren, M. (2005). Instrumentos de la Organización Mundial de la Salud para la medición de la calidad de vida en entornos de salud, Editor(es): Kimberly Kempf-Leonard, Enciclopedia de medición social, 975-980. https://doi.org/10.1016/B0-12-369398-5/00508-9
Stribing, A., Stodden, D., Monsma, E., Lieberman, L. y Brian, A. (2021). Validez de contenido/aparente de los cuestionarios de percepción de habilidades motoras para jóvenes con discapacidad visual: un método Delphi. Revista británica de discapacidad visual, 1-9. https://doi.org/10.1177/0264619621990687 Tavakol, M. y Dennick, R. (2011). Entendiendo el Alfa de Cronbach. Revista Internacional de Educación Médica, 2, 53-55. https://doi.org/10.5116/ijme.4dfb.8dfd
Deja una respuesta