10 ejemplos de validez de criterio
La validez de criterio es un tipo de validez que examina si las puntuaciones en una prueba predicen el desempeño en otra.
Por ejemplo, si los empleados toman un texto de IQ, al jefe le gustaría saber si esta prueba predice el desempeño laboral real.
- Si una prueba de coeficiente intelectual lo hace predecir el desempeño laboral, entonces tiene validez de criterio.
- Si una prueba de coeficiente intelectual no es predecir el desempeño laboral, entonces no tiene validez de criterio.
Para hacer esa determinación, se calcula una correlación entre las puntuaciones de coeficiente intelectual y una medida del desempeño laboral.
Cuanto mayor sea el valor de la correlación, más fuerte será la relación entre los dos y mayor será la validez de criterio.
A veces esto también se llama validez predictiva.
Por supuesto, existen otros factores relacionados con el desempeño laboral, por lo que la correlación nunca será perfecta (es decir, 1). En la mayoría de las situaciones, habrá muchos factores asociados con un resultado de desempeño particular y, en algunos casos, cientos.
Ejemplos de Criterio de Validez
1. Inventarios de Liderazgo y Habilidades de Liderazgo
Un inventario de liderazgo puede predecir si alguien será bueno en un rol de liderazgo.
Variable Predictora: Puntaje alto en un inventario de liderazgo
Variable de criterio: Aptitud para un papel de liderazgo.
Lleva mucho tiempo saber qué empleados tienen potencial de liderazgo. Deben ser vistos en diversas situaciones durante un período de años para desarrollar una comprensión sólida de su personalidad y capacidad para manejar la presión.
Eso es muy ineficiente, especialmente para una empresa nueva que se está expandiendo rápidamente.
Aquí es donde entran en juego los inventarios de personalidad. Al administrar una prueba que evalúa los rasgos de liderazgo, una empresa puede obtener una gran cantidad de datos sobre una gran cantidad de empleados muy rápidamente.
La cuestión clave es: asegurarse de que se administre una prueba con validez de criterio. Siempre que la prueba tenga validez de criterio, podrá predecir, con cierto grado de precisión, qué empleados son aptos para un puesto de liderazgo.
Aquí hay una lista de inventarios de liderazgo de uso común.
2. El SAT y el GPA universitario
Los estudios han encontrado que los SAT tienen una capacidad de débil a moderada para predecir su GPA universitario.
Variable Predictora: Puntuación SAT
Variable de criterio: promedio universitario
Se han realizado muchos estudios sobre la validez de criterio de las puntuaciones del SAT para predecir los promedios académicos universitarios (Kobrin et al., 2008).
La premisa básica es que el SAT tiene validez de criterio respecto al desempeño universitario. El estudio típico implica obtener los puntajes SAT de cientos, incluso miles de estudiantes, y luego correlacionar esos puntajes con los GPA del primer o último año.
Aunque es difícil hacer una declaración general que cubra adecuadamente tantos estudios, los resultados van desde encontrar asociaciones débiles a moderadamente fuertes entre el SAT y el GPA.
Una asociación moderadamente fuerte es más impresionante de lo que parece. Es solo una puntuación en una prueba, pero predice bastante bien el desempeño futuro en un criterio. Si los investigadores tuvieran que incluir otros factores, como la motivación y las habilidades de gestión del tiempo, la capacidad de predecir el GPA universitario de un estudiante sería cada vez más precisa.
3. El mercado de la vivienda
Las variables predictoras, incluida la cantidad de viviendas nuevas compradas, los permisos de construcción otorgados, las tasas de interés de las hipotecas y la tasa de empleo, tienen una alta validez de criterio para predecir los precios de las viviendas..
Variables predictoras: Permisos de construcción emitidos, tasas de interés de las hipotecas, tasa de empleo
Variable de criterio: Precios de casas
El mercado de la vivienda es un indicador clásico del desempeño económico. El volumen de ventas de cada trimestre se ve afectado por numerosos factores, que incluyen: la tasa de empleo, las tasas de interés, la oferta de construcción y la confianza del consumidor, solo por nombrar algunos.
Cada uno de esos factores se puede medir y correlacionar con el mercado inmobiliario. Algunos factores tienen una validez de criterio sólida, mientras que otros pueden tener una validez de criterio moderada o baja. Sin embargo, cuando los economistas los juntan todos, la capacidad de predecir el mercado de la vivienda mejora significativamente.
Por supuesto, todavía no es una ciencia exacta, por lo que siempre habrá algún margen de error en esos pronósticos.
4. Correlatos Psicológicos del Rendimiento Académico
Se encuentra que la autoeficacia y la gestión del esfuerzo tienen una alta validez de criterio en las pruebas de rendimiento académico porque son predictores de un GPA alto.
Variable Predictora: Autoeficacia y gestión del esfuerzo
Variable de criterio: Un GPA alto
Richardson et al. (2012) examinaron una gran cantidad de estudios entre 1997 y 2010 que involucraron la identificación de variables psicológicas asociadas con el rendimiento académico. Los investigadores incluyeron más de 7000 estudios e identificaron más de 80 variables distintas que se correlacionaban con el GPA.
Cada una de esas 80 variables tiene un grado de validez de criterio. Es decir, el puntaje de un estudiante en cada una de esas variables es predictivo de las calificaciones hasta cierto punto. La verdadera pregunta es: ¿cuáles son los mejores predictores?
Después de realizar algunos análisis muy exhaustivos, los resultados indicaron que los factores psicológicos, como la autoeficacia y la gestión del esfuerzo, eran los correlatos más fuertes del GPA. En otras palabras, la autoeficacia de los estudiantes y la gestión del esfuerzo tienen validez de criterio con respecto al GPA.
5. La actividad de la cesta de entrada
La prueba de simulación de trabajo en la canasta examina la capacidad de un gerente para priorizar tareas. Hace que un solicitante de empleo clasifique los artículos en una bandeja de entrada y clasifique el orden en que hacerlo.
Variable Predictora: Rendimiento en el ejercicio de la canasta
Variable de criterio: Aptitud del solicitante como gerente
La actividad In-Basket es una tarea de simulación de trabajo que está diseñada para evaluar la capacidad de un solicitante para establecer prioridades.
Primero, el solicitante se sienta en un escritorio de aspecto oficial y se le indica que revise los documentos de la bandeja de entrada. La cesta contiene memorandos, impresiones de correo electrónico, mensajes y descripciones de varias tareas que la empresa necesita completar.
El solicitante tiene un breve período de tiempo para leer los diversos documentos y organizarlos en orden de prioridad.
Este es un ejemplo del tipo de herramienta de evaluación que implementará un departamento de recursos humanos porque cree que tiene validez de criterio. El desempeño en esta actividad predice la capacidad de priorizar las demandas contrapuestas en el trabajo.
6. Validez del criterio y esperanza de vida
Una prueba de esperanza de vida tendrá validez de criterio si puede predecir de forma fiable la correlación entre una variable de predicción como el ejercicio frecuente y la longevidad de la vida.
Variable Predictora: Ejercicio regular
Variable de criterio: Una larga vida.
Parece que cada mes se publica otro estudio sobre la esperanza de vida.
Muchos de los estudios tienen metodologías similares; en la etapa 1, miles de personas son evaluadas en una multitud de factores, incluidos los hábitos dietéticos, la frecuencia del ejercicio y factores psicológicos como el apoyo social y las características de personalidad.
En la etapa 2, aproximadamente 20 a 50 años después, los investigadores recopilan datos sobre la salud física, como las enfermedades cardiovasculares y el cáncer.
Al examinar las correlaciones entre los factores evaluados en la etapa 1 con el estado de salud de los participantes en la etapa 2, los investigadores pueden determinar qué factores tienen validez de criterio. Es decir, qué factores del estadio 1 están relacionados con la salud del estadio 2.
7. La combinación de la NFL
La NFL Combine es una prueba anual de la aptitud de los jugadores de fútbol americano universitario para jugar en la NFL. La mayoría de estas pruebas no tienen validez de criterio, pero la prueba de velocidad para corredores sí predice el desempeño futuro en la NHL.
Variable Predictora: Prueba de velocidad combinada de la NFL
Variable de criterio: Actuación de los corredores en la NFL
Cada año, se invita a los mejores jugadores de fútbol universitario a participar en el Combinado de la NFL. El evento dura varios días e involucra a cada atleta que atraviesa una amplia gama de desafíos físicos, como correr la carrera de 40 yardas, saltar lo más alto que puedan y realizar una interesante prueba de coeficiente intelectual llamada Wonderlic.
Los entrenadores en jefe, los exploradores y los propietarios confían mucho en los resultados de estas pruebas, pero nadie está realmente seguro de por qué. Como ha revelado la investigación de Kuzmits & Adams (2008), hay “…no hay una relación estadística consistente entre las pruebas combinadas y el rendimiento del fútbol profesional, con la notable excepción de las pruebas de velocidad para los corredores” (pág. 1721). Para una explicación no técnica, haga clic aquí.
El Combinado de la NFL puede ser uno de los más conjunto duradero de pruebas que carecen por completo de validez de criterio.
8. Rendimiento del curso de conductor de autobús y accidentes de autobús
Para probar la validez de criterio de un curso para conductores, los investigadores tendrían que hacer un seguimiento de grandes grupos experimentales y de control para ver si los que tomaron el curso para conductores tuvieron menos accidentes.
Variable Predictora: Tomar un curso de seguridad para conductores de autobús
Variable de criterio: Tener menos accidentes de autobús en el trabajo
La contratación de conductores de autobuses calificados y cautelosos es una preocupación primordial para muchos municipios. Un solo accidente puede resultar en numerosas lesiones. Agregue la duración de los tiempos de conducción y la cantidad de autobuses que operan en un momento dado, y la situación es propicia para accidentes frecuentes.
Por lo tanto, las empresas de autobuses deben seleccionar cuidadosamente a sus conductores. Un componente del proceso de contratación implica que los solicitantes realicen un recorrido estandarizado. El curso ha sido diseñado para imitar varias características encontradas en condiciones reales de manejo y el desempeño de cada solicitante puede medirse y calificarse objetivamente.
Cuando esa puntuación se correlaciona con los registros de conducción reales de los conductores contratados durante los próximos años, se puede evaluar su validez de criterio.
Con suerte, la compañía de autobuses descubrirá que el curso de manejo tiene validez de criterio. En otras palabras, el desempeño en el curso puede predecir el desempeño laboral real. Por lo tanto, los solicitantes que obtienen malos resultados en el curso no deben ser contratados.
9. Simulación de trabajo y competencia de enfermería
Las evaluaciones de competencia a veces tienen una baja validez de criterio. Por ejemplo, un estudio de competencia de enfermería de expertos externos no se correlacionó con las evaluaciones de los supervisores diarios de esas enfermeras, lo que sugiere que los expertos o los supervisores están realizando evaluaciones con baja validez de criterio.
Variable Predictora: Evaluaciones del desempeño por parte de los supervisores
Variable de criterio: Desempeño real en el trabajo
La enfermería es una ocupación increíblemente de alta presión y mucho en juego. Un desempeño deficiente en el trabajo puede resultar en lesiones graves o algo peor. Por lo tanto, la capacidad de desarrollar medidas precisas de desempeño que tengan validez de criterio es de suma importancia.
Desafortunadamente, depender de una medición de las habilidades con papel y lápiz no logra reproducir las situaciones de alto estrés que las enfermeras a menudo enfrentan.
Sin embargo, “La evaluación del rendimiento clínico en entornos auténticos es posible mediante simulaciones realistas que no ponen en riesgo a los pacientes” (Hinton, et al., 2017, pág. 432).
En el Hinton et al. En el estudio, enfermeros participaron en escenarios específicos de pruebas médico-quirúrgicas con maniquíes en un laboratorio de alta fidelidad mientras eran observados por profesionales experimentados. Esas calificaciones luego se compararon con las calificaciones de su supervisor en el trabajo.
En este ejemplo, los investigadores intentaban establecer la validez de criterio de los escenarios de simulación para predecir el desempeño en el trabajo. A pesar de todo el esfuerzo que se dedicó a este estudio, las puntuaciones en los escenarios simulados “…no estaban bien correlacionados con las encuestas de autoevaluación y evaluación del supervisor” (pág. 455).
10. Rastreadores portátiles y pasos caminados
Los contadores de pasos que usa en su reloj aparentemente tienen una alta validez de criterio. Para probar esto, Adamakis (2021) hizo que las personas trotaran en una cinta de correr, contó sus pasos y luego los comparó con los resultados en el contador de pasos. ¡Los contadores de pasos funcionaron bastante bien!
Variable Predictora: Pasos registrados en un contador de pasos
Variable de criterio: Pasos reales caminados
¿Alguna vez se preguntó si los rastreadores de actividad en su teléfono son precisos? Bueno, la investigación de Adamakis (2021) puede arrojar algo de luz sobre esta pregunta.
En este estudio, treinta adultos usaban dos teléfonos inteligentes (uno con Android y otro con iOS), mientras ejecutaban cuatro aplicaciones: Runtastic Podometer, Accupedo, Pacer y Argus. Caminaron y trotaron en una caminadora a tres velocidades diferentes durante 5 minutos. Dos asistentes de investigación contaron cada paso que dieron con un contador digital.
Luego se evaluó la validez de criterio de las aplicaciones comparando los datos de las aplicaciones con los contadores digitales 100 % precisos. Los resultados revelaron que "El hallazgo principal con respecto al conteo de pasos fue que todas las aplicaciones gratuitas basadas en acelerómetros eran válidas... al comparar las aplicaciones de iOS y Android, las aplicaciones de Android funcionaron con un poco más de precisión que las de iOS". (pág. 9).
Por lo tanto, parece que estas aplicaciones tienen una validez de criterio aceptable, al menos cuando se trata de contar pasos.
Este estudio también fue un buen ejemplo de validez concurrente porque la validez de una prueba se estableció realizando la prueba al mismo tiempo (por ejemplo, al mismo tiempo) como otra prueba que se sabe que es válida, para ver si obtienen los mismos resultados.
Conclusión
Con la prevalencia de las pruebas utilizadas para determinar quién ingresa a la universidad o quién es contratado como conductor de autobús, sería bueno saber si esas pruebas son precisas. Es decir, ¿el puntaje de una persona en una prueba determinada está relacionado con el desempeño real, ya sea en la escuela o en el trabajo?
Resulta que hay una manera de hacer esta determinación, y se llama validez de criterio. La metodología habitual consiste en administrar la prueba a un grupo de personas y luego evaluar su desempeño en un dominio determinado en una fecha posterior. Esa fecha posterior podría ser cuestión de meses o de varios años.
Afortunadamente, los investigadores han realizado una gran cantidad de estudios que examinan la validez de criterio de miles de pruebas diferentes. Las pruebas que carecen de respaldo generalmente se eliminan o modifican, mientras que las pruebas respaldadas por la investigación se pueden usar en muchas situaciones prácticas.
Referencias
Adamakis, M. (2021). Validez de criterio de aplicaciones iOS y Android para medir pasos y distancia en adultos. Tecnologías, 955. https://doi.org/10.3390/technologies9030055
Cohen, RJ y Swerdlik, ME (2005). Pruebas y evaluación psicológicas: una introducción a las pruebas y la medición (6ª ed.). Nueva York: McGraw-Hill.
Hinton, J., Mays, M., Hagler, D., Randolph, P., Brooks, R., DeFalco, N., Kastenbaum, B. y Miller, K. (2017). Prueba de competencia de enfermería: validez y confiabilidad del perfil de desempeño de enfermería. Revista de Medición de Enfermería, 25(3), 431. https://doi.org/10.1891/1061-3749.25.3.431
Kobrin, JL, Patterson, BF, Shaw, EJ, Mattern, KD y Barbuti, SM (2008). Validez del SAT para predecir el promedio de calificaciones universitarias de primer año (College Board Research Report No. 2008-5). Nueva York, Nueva York: Junta Universitaria.
Richardson, M., Abraham, C. y Bond, R. (2012). Correlatos psicológicos del rendimiento académico de estudiantes universitarios: una revisión sistemática y metanálisis. Boletín Psicológico, 138(2), 353.
Deja una respuesta