15 ejemplos de confiabilidad entre evaluadores

La confiabilidad entre evaluadores es una forma de evaluar el nivel de acuerdo entre dos o más jueces (también conocidos como evaluadores).

La investigación de observación a menudo involucra a dos o más observadores capacitados que emiten juicios sobre comportamientos específicos observados, y a los investigadores les gustaría saber si están de acuerdo entre sí o no.

Cuanto mayor sea el nivel de acuerdo, mayor será la fiabilidad interna del estudio.

Índice()

    Tipos de confiabilidad entre evaluadores

    Hay dos métodos comunes para evaluar la confiabilidad entre evaluadores: porcentaje de acuerdo y Kappa de Cohen.

    • Acuerdo porcentual implica simplemente contar el porcentaje de veces que dos calificadores estuvieron de acuerdo. Este número oscilará entre 0 y 100. Cuanto más cerca de 100, mayor será la concordancia.
    • Kappa de Cohen es muy similar al porcentaje de acuerdo, pero la fórmula utilizada tiene en cuenta que, a veces, los evaluadores estarán de acuerdo entre sí por casualidad. Por lo tanto, se considera una evaluación más rigurosa de la confiabilidad entre evaluadores. La fórmula dará como resultado un número que va de 0 a 1; cuanto más cerca de 1, mayor es el nivel de acuerdo.

    Ejemplos de confiabilidad entre evaluadores

    • Moderación de calificaciones en la universidad – Profesores experimentados calificando los ensayos de los estudiantes que solicitan ingreso a un programa académico
    • Moderación de investigación observacional – Observar las interacciones de parejas en un centro comercial mientras dos observadores califican sus comportamientos en términos de cariño, neutral o distante.
    • Jueces que comparan notas en un evento deportivo con resultados moderados: Evaluación del grado de acuerdo entre los jueces de una competición de DanceSport – ver este estudio
    • Obtener revisiones de expertos externos de nuevos exámenes: Pedir a profesores de matemáticas experimentados que califiquen el nivel de dificultad de las preguntas en un nuevo examen
    • Referencias cruzadas con expertos – Pedir a expertos en la materia (SME) que analicen una nueva medida de habilidades motoras percibidas (PMS) de jóvenes con discapacidades visuales (YVI) y califiquen su nivel de validez aparente ver este estudio
    • Comparación de puntajes en dos pruebas similares: Puntuación del rendimiento de los nuevos conductores de autobús en un curso de prueba de realidad virtual que simula las condiciones de conducción
    • Profesionales experimentados e inexpertos comparando notas – Pedir a profesionales de enfermería experimentados que califiquen el desempeño de las nuevas enfermeras que participan en una serie de emergencias médicas simuladas; consulte este estudio
    • Profesionales experimentados calificando a colegas sin experiencia – Paramédicos experimentados que califican la capacidad de los alumnos para realizar RCP en un curso de primeros auxilios
    • Múltiples administradores evaluando a su personal: Administradores escolares observando y evaluando la demostración de enseñanza de un nuevo maestro
    • Múltiples profesores comparando notas – Calificaciones de los maestros con respecto a la calidad de los ensayos escritos por estudiantes de inglés como lengua extranjera (ver este estudio)

    Ejemplos detallados

    1. La prueba de situaciones extrañas de Ainsworth

    La Dra. Mary Ainsworth desarrolló un método de laboratorio para evaluar el estilo de apego de niños muy pequeños. Las pruebas de situaciones extrañas consisten en 8 escenarios que duran unos minutos cada uno y que presentan al niño situaciones ligeramente estresantes.

    El comportamiento del niño es observado y calificado por observadores capacitados sentados detrás de un espejo de dos vías. Califican las acciones del niño en cada escenario de acuerdo con un conjunto de criterios predefinidos, a partir de los cuales han recibido una amplia formación.

    Por ejemplo, en un escenario, la madre regresa a la habitación donde dejó al niño. Los observadores califican las acciones del niño al regreso de la madre en términos de compartir afectivamente o evitar la proximidad.

    Según lo informado por Simonelli & Parolin, (2016), El acuerdo entre evaluadores para SSP es alto, especialmente entre los investigadores dentro del laboratorio y en menor medida, pero sigue siendo tranquilizador cuando se compara entre laboratorios. se examinan las tarifas” (pág. 4).

    2. Codificación de los patrones lingüísticos de las interacciones entre padres e hijos

    Comprender los factores involucrados en el desarrollo lingüístico puede brindar a los investigadores y educadores información valiosa sobre una de las habilidades más importantes que una persona puede adquirir. Las habilidades verbales juegan un papel clave en el éxito académico y profesional durante toda la vida.

    Es por ello que se ha dedicado un gran volumen de investigación a esta área de estudio. Entre las diversas metodologías empleadas, la observación de las interacciones entre padres e hijos durante los primeros años arroja la mayor cantidad de datos, aunque requiere mucho tiempo y es un desafío increíble.

    Los investigadores harán que observadores capacitados registren el comportamiento en el hogar o le pedirán al cuidador principal y al niño que vengan al laboratorio en el campus. A medida que el padre y el niño participan en diversas actividades semiestructuradas, observadores capacitados monitorearán y calificarán sus comportamientos.

    Para asegurarse de que esos puntajes sean confiables, los investigadores evaluarán la confiabilidad entre evaluadores de esas calificaciones. Según el número de evaluadores y otras facetas del estudio, se calculará un porcentaje de acuerdo o una estadística Kappa.

    3. Estudio de muñecas Bandura Bobo

    Uno de los estudios más influyentes en psicología tuvo lugar en la década de 1960 por el Dr. Albert Bandura y sus colegas. La versión básica de estos estudios implicó que los niños vieran un video de un adulto siendo agresivo o no agresivo con una muñeca Bobo. Luego se observó a los niños mientras jugaban libremente en una habitación separada con un muñeco Bobo.

    En Bandura et al. (1961), los niños fueron observados en su jardín de infancia antes de participar en el estudio. Dos jueces capacitados calificaron el comportamiento de los niños en cuatro dimensiones usando una escala de 5 puntos: agresión física, agresión verbal, agresión hacia objetos inanimados e inhibición agresiva.

    Para evaluar la confiabilidad entre evaluadores, se calculó una correlación en las puntuaciones de agresión combinadas. “La confiabilidad del puntaje compuesto de agresión, estimado por medio de la correlación producto-momento de Pearson, fue de .89”. Esta correlación indica un acuerdo sustancial entre los evaluadores, lo que significa que podemos confiar en los resultados y la validez interna del estudio.

    4. Evaluación de la confiabilidad de los jueces en un concurso de cata

    La industria de la degustación es ferozmente competitiva. Ganar un premio prestigioso puede tener importantes implicaciones económicas para una empresa de alimentos o bebidas. Dado que hay tanto en juego en estos eventos sofisticados, es sorprendente saber que hay motivos para dudar de la credibilidad de los jueces.

    En palabras de Hodgson (2008), ¿Por qué es que un particular [beverage] gana un ¿Medalla de oro en una competencia y no gana ningún premio en otra? (pág. 105).

    Para evaluar la confiabilidad de las calificaciones de los jueces, un panel de cuatro jueces probó muestras replicadas de 30 bebidas que participaron en una competencia de California entre 2005 y 2008. Entre 65 y 70 jueces participaron en el estudio cada año y calificaron las bebidas en la misma escala. utilizado en las competiciones.

    Los resultados indicaron que en menos de la mitad de los paneles de jueces, la calidad de la bebida fue el factor determinante en las calificaciones. Además, solo alrededor del 10 por ciento de los jueces pudieron replicar las calificaciones que realmente habían dado durante la competencia en la que juzgaron esa bebida.

    Estos resultados sugieren que la confiabilidad entre evaluadores de las evaluaciones de los jueces durante las competencias de degustación de bebidas es bastante baja.

    5. Juzgar natación sincronizada

    En las competencias de natación sincronizada, el desempeño es calificado por un panel de jueces. Más de 20 jueces pueden participar en la evaluación de la calidad de las rutinas. Son muchos jueces. Dada la importancia de sus evaluaciones, es vital tener confianza en sus valoraciones.

    Este fue el propósito de un estudio realizado por Ponciano et al. (2017). Primero, grabaron en video las rutinas de tres nadadores sincronizados bien entrenados. Luego, su desempeño fue evaluado por diez jueces calificados con al menos diez años de experiencia a nivel nacional e internacional.

    La confiabilidad entre evaluadores se evaluó calculando un alfa de Cronbach en las calificaciones que se realizaron en dos ocasiones separadas. Los resultados revelaron un alto nivel de acuerdo entre los evaluadores en T1 (0,85) y T2 (0,83). Los investigadores concluyen que “El contenido del video fue interpretado casi de la misma manera por los 10 evaluadores y permitió la consistencia de la evaluación después de 7 días” (pág. 185).

    Este estudio demuestra la confiabilidad de las calificaciones de los jueces de nado sincronizado y la utilidad de usar el video como herramienta de entrenamiento.

    Conclusión

    La investigación psicológica a menudo se basa en las evaluaciones de observadores capacitados. Sin embargo, las personas naturalmente tienen opiniones variadas sobre lo que ven, lo que puede conducir a a cuestiones relativas a la validez interna de la investigación.

    Por lo tanto, antes de que comience la recopilación de datos, los evaluadores reciben una amplia capacitación sobre qué buscar y cómo categorizar esas observaciones. Una vez recopilados los datos, esas calificaciones se someten a análisis estadísticos para determinar el grado de acuerdo. Si los evaluadores son consistentes entre sí en sus juicios, entonces la confiabilidad entre evaluadores será alta.

    Referencias

    Ainsworth, MDS, Blehar, M., Waters, E. y Wall, S. (1978). Patrones de apego: un estudio psicológico de la situación extraña. Hillsdale: Erlbaum.

    Bandura, A., Ross, D. y Ross, SA (1961). Transmisión de la agresión a través de la imitación de modelos agresivos. Revista de Psicología Social y Anormal, 63575-82.

    Cohen, RJ y Swerdlik, ME (2005). Pruebas y evaluación psicológicas: una introducción a las pruebas y la medición (6ª ed.). Nueva York: McGraw-Hill.

    Cronbach, LJ (1951). Coeficiente alfa y la estructura interna de pruebas. Psicometría, 16(3), 297-334.

    Cronbach, LJ (2004). Mis pensamientos actuales sobre el coeficiente alfa y los procedimientos sucesores. Medición educativa y psicológica, 64.(3), 391-418.

    Hinton, J., Mays, M., Hagler, D., Randolph, P., Brooks, R., DeFalco, N., Kastenbaum, B. y Miller, K. (2017). Prueba de competencia de enfermería: validez y confiabilidad del perfil de desempeño de enfermería. Revista de Medición de Enfermería, 25(3), 431. https://doi.org/10.1891/1061-3749.25.3.431

    Hodgson, R. (2008). Un examen de la confiabilidad de los jueces en una importante competencia de vinos de EE. UU. Revista de Economía del Vino, 3, 105-113. https://doi.org/10.1017/S1931436100001152

    Ponciano, Kátia & Fugita, Meico & Figueira Junior, Aylton & da Silva, Cláudia & Meira Jr, Cassio & Bocalini, Danilo. (2017). Fiabilidad de la evaluación del juez de los elementos técnicos de natación sincronizada por video. Revista Brasileira de Medicina do Esporte. 24. 10.1590/1517-869220182403170572.

    Premelč, J., Vučković, G., James, N. y Leskošek, B. (2019). Fiabilidad de juzgar en DanceSport. Fronteras en Psicología, 10. https://doi.org/10.3389/fpsyg.2019.01001

    Simonelli, Alessandra & Parolin, Micol. (2016). Test de situaciones extrañas. Virgil Zeigler-Hill y Todd K. Shackelford (Eds.) En Enciclopedia de personalidad y diferencias individuales (págs. 1-4). https://doi.org/10.1007/978-3-319-28099-8_2043-1

    Solomon, J. y George, C. (2016). La medición de la seguridad del apego y construcciones relacionadas en la infancia y la primera infancia. En J. Cassidy y PR Shaver (Eds.), Manual de archivo adjunto: Teoría, investigación y aplicaciones clínicas (3.ª ed., págs. 366-396). Nueva York: Guilford Press.

    Stribing, A., Stodden, D., Monsma, E., Lieberman, L. y Brian, A. (2021). Validez de contenido/aparente de los cuestionarios de percepción de habilidades motoras para jóvenes con discapacidad visual: un método Delphi. Revista británica de discapacidad visual, 1-9. https://doi.org/10.1177/0264619621990687

    Daller, M. y Phelan, D. (2007). ¿Qué hay en la mente de un maestro? La relación entre las calificaciones de los maestros de los ensayos de EFL y los diferentes aspectos de la riqueza léxica. Prensa de la Universidad de Cambridge. https://doi.org/10.1017/CBO9780511667268.016

    Califica esta Publicación

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Subir

    Usamos cookies Política de Cookies