15 ejemplos de programas de refuerzo (de todos los tipos)
Un programa de refuerzo se refiere a la entrega de una recompensa (reforzador) para fortalecer un comportamiento (es decir, hacer que ocurra con más frecuencia).
Hay cuatro tipos de programas de refuerzo: razón fija, razón variable, intervalo fijo e intervalo variable.
Cada programa recompensa el comportamiento después de un número determinado de respuestas (programas de proporción) o después de que haya transcurrido un cierto intervalo de tiempo (programas de intervalo).
Los diferentes horarios conducen a diferentes patrones de comportamiento y cada uno contiene fortalezas y debilidades únicas.
Los programas de refuerzo fueron delineados por BF Skinner (1965) como parte del condicionamiento operante y se basaron en la Ley del efecto de Edward Thorndike (1898; 1905).
La Ley del Efecto establece que,
“Las respuestas que producen un efecto satisfactorio en una situación particular tienen más probabilidades de ocurrir nuevamente en esa situación, y las respuestas que producen un efecto incómodo tienen menos probabilidades de ocurrir nuevamente en esa situación” (Gray, 2007, p. 106).
Tipos de programa de refuerzo
1. Horario de Razón Fija
El programa de refuerzo de proporción fija ofrece una recompensa después de que se haya producido un número específico de la conducta objetivo.
Por ejemplo, un programa FR-10 significa que se entregará una recompensa después de que el comportamiento objetivo haya exhibido 10 respuestas. La cantidad de tiempo que transcurre es irrelevante.
El programa FR conduce a la adquisición rápida de comportamiento Es decir, el organismo (persona o animal) en el horario comienza a exhibir el comportamiento rápidamente.
El ritmo de la conducta es frecuente. Sin embargo, si el reforzador se detiene, la conducta también cesará rápidamente. Esto se llama extinción.
Poco tiempo después de haber terminado el refuerzo, el animal (o la persona) puede exhibir una explosión de extinción. Eso es un aumento repentino en el comportamiento objetivo.
El otro patrón notable en este calendario es el pausa posterior al refuerzo. La frecuencia del comportamiento disminuirá levemente después de cada reforzador.
Pros de relación fija | Contras de relación fija |
1. Altas tasas de respuesta | 1. Pausa posterior al refuerzo |
2. Fácil de implementar y comprender | 2. Puede provocar agotamiento o fatiga |
3. Patrón de refuerzo predecible | 3. Menos resistente a la extinción |
Ejemplo de programa de razón fija
Juego de video juego: Cada vez que el jugador captura 20 monstruos, son recompensados con poderes especiales.
2. Horario de Razón Variable
El programa de razón variable entrega el reforzador después de que se exhibe el comportamiento objetivo, pero el número de ocurrencias requeridas cambia.
A veces, el reforzador se entregará después de que el comportamiento se haya exhibido varias veces y, a veces, puede tomar una gran cantidad de ocurrencias.
Por ejemplo, un programa VR-10 significa que, en promedio, el comportamiento debe exhibirse 10 veces para que ocurra la recompensa. El comportamiento puede ser recompensado después de 3 ocurrencias, luego 2, luego 7 y así sucesivamente. Aunque el número cambia, el promedio durante un período de tiempo será 10.
El programa de razón variable puede producir una adquisición rápida si la razón entre comportamiento y recompensa es alta. El organismo se da cuenta rápidamente de la contingencia de la conducta al reforzador.
Una vez finalizada la recompensa, la extinción será lenta. Al organismo le toma un tiempo darse cuenta de que el comportamiento ya no es recompensado.
Ventajas de la relación variable | Contras de relación variable |
1. Tasas de respuesta altas y consistentes | 1. Más difícil de implementar |
2. Resistente a la extinción | 2. Puede conducir a un comportamiento similar al del juego |
3. Fomenta la persistencia en el comportamiento | 3. Puede resultar en frustración o ansiedad |
Ejemplo de programa de razón variable
Máquinas tragamonedas: La recompensa de una máquina tragamonedas es impredecible. Quién sabe cuántos tirones de palanca tomará antes de finalmente ganar.
3. Horario de intervalo fijo
El programa de intervalo fijo de reforzamiento recompensa el primer comportamiento que se exhibe después de que haya transcurrido un período de tiempo específico.
El intervalo de tiempo no cambia y la cantidad de comportamientos objetivo que ocurren durante el intervalo es irrelevante. Entre los cuatro programas de refuerzo, el intervalo fijo produce la frecuencia más baja de la conducta objetivo. La velocidad de adquisición y extinción depende de la duración del intervalo; cuanto más corto sea el intervalo, más rápido se exhibirá y extinguirá el comportamiento.
Este horario también produce un patrón único de comportamiento llamado festoneado. La tasa de comportamiento disminuye inmediatamente después del refuerzo y luego muestra un aumento dramático poco antes de que transcurra el siguiente intervalo de tiempo.
Profesionales de intervalo fijo | Contras de intervalo fijo |
1. Fácil de implementar y comprender | 1. Tasas de respuesta más bajas |
2. Patrón de refuerzo predecible | 2. Efecto festoneado (mayor respuesta cerca del tiempo de refuerzo) |
3. Adecuado para cambios de comportamiento a largo plazo | 3. Menos resistente a la extinción |
Ejemplo de programa de intervalo fijo
Sueldo quincenal: A la mayoría de los empleados de comida rápida se les paga cada dos semanas.
4. Horario de intervalo variable
El programa de refuerzo de intervalo variable recompensa el primer comportamiento que se exhibe después de que ha transcurrido un período de tiempo específico, pero la duración del tiempo cambia.
A veces, el reforzador se entregará después de un período corto y, a veces, la duración será mucho más larga.
Por ejemplo, con un programa VI-7 minutos, el comportamiento objetivo se reforzará, en promedio, después de que hayan transcurrido 7 minutos. Sin embargo, el intervalo cambia cada vez, de modo que en una ocasión puede ser de 4 minutos, la siguiente de 3 minutos, pero la tercera vez puede ser de 12 minutos.
Este programa produce una tasa constante de comportamiento, adquisición lenta y extinción lenta.
Profesionales de intervalo variable | Contras de intervalo variable |
1. Tasas de respuesta moderadas y consistentes | 1. Más difícil de implementar |
2. Resistente a la extinción | 2. Control menos preciso sobre el comportamiento |
3. Fomenta la persistencia en el comportamiento | 3. Puede resultar en frustración o ansiedad |
Ejemplo de programa de intervalo variable
Pesca: A veces, un pez muerde tan pronto como se lanza la línea, pero a veces pueden pasar 40 minutos antes de que muerda.
10 ejemplos de programas de refuerzo
- Máquinas tragamonedas: La recompensa de una máquina tragamonedas es impredecible. Quién sabe cuántos tirones de palanca tomará antes de finalmente ganar ─ Relación variable
- Juego de video juego: Cada vez que el jugador captura 20 monstruos, son recompensados con poderes especiales. ─ Relación fija
- Sueldo quincenal: A la mayoría de los empleados de comida rápida se les paga cada dos semanas ─ Intervalo fijo
- Pesca: A veces, un pez muerde tan pronto como se lanza la línea, pero a veces pueden pasar 40 minutos antes de que muerda. ─ Intervalo variable
- Estudiar para los exámenes: Algunos estudiantes ni siquiera abren su libro de texto hasta unos días antes del examen. Una vez finalizada la prueba, el libro vuelve a la estantería. ─ Intervalo fijo
- Comprobación de Me gusta en FB: Revisar su publicación más reciente en FB para "me gusta" significa que puede ver un "me gusta" casi cada vez que revisa al principio, pero después de un tiempo puede ser menos consistente ─ Relación variable
- Recogiendo manzanas: A los trabajadores de una granja de manzanas se les paga por cada canasta de manzanas recolectadas ─ Relación fija
- En Entrenamiento: Un entrenador no mima a sus jugadores elogiándolos por cada buena jugada. A veces reciben elogios y otras veces no. ─ Relación variable
- Pruebas sorpresa: Un profesor puede dar un examen sorpresa dos veces en una semana y luego esperar dos semanas antes de dar el siguiente. ─ Intervalo variable
- El Bono Trimestral: Las personas en ventas a menudo obtienen una bonificación al final de cada trimestre. ─ Intervalo fijo
Estudios de casos de programas de refuerzo
1. Juego de videojuegos (proporción fija)
Probablemente el mejor ejemplo del programa de reforzamiento de razón fija es el videojuego. Aunque hay mucha variación, un principio general está presente en la mayoría: las recompensas llegan con frecuencia.
Por ejemplo, muchos juegos involucran al jugador golpeando íconos específicos. Cada icono está asociado con un valor de recompensa. Cuantos más iconos toque el jugador, más puntos obtendrá.
Este es un programa FR-1, lo que significa que el reforzador se entrega después de cada instancia del comportamiento objetivo.
Resulta que la investigación demuestra que recibir todos esos puntos es muy gratificante; literalmente, existe una base neurológica para esos sentimientos de recompensa.
Lorenz et al. (2015) resumieron los estudios de neuroimagen en jugadores de videojuegos:
“…estos estudios muestran que es probable que los procesos neuronales asociados con los videojuegos estén relacionados con alteraciones del procesamiento neuronal en el VS, el área central del procesamiento de recompensas” (p. 2).
Esto significa que los centros de recompensa en el cerebro del jugador se activan cuando recibe puntos. Cada golpe de token estimula los centros de recompensa en el cerebro.
Por supuesto, esto aumenta el comportamiento de juego, lo que hace que el juego sea más popular.
2. Tratamiento del comportamiento agresivo (intervalo variable)
La investigación sobre el tratamiento de personas con discapacidades del comportamiento o del aprendizaje a menudo implica un denso programa de intervalos fijos (Van Camp et al., 2000).
El uso de un horario denso que premia el comportamiento con frecuencia en períodos cortos de tiempo es efectivo para inducir una adquisición rápida. Para disminuir la dependencia del reforzador para mantener el comportamiento objetivo deseado, el programa se reduce gradualmente.
Sin embargo, los horarios variables pueden tener una mayor validez ecológica:
“porque los cuidadores a menudo no pueden implementar los horarios de FT con un alto grado de integridad en el entorno natural” (p. 546).
Van Camp et al. (2000) examinaron la efectividad relativa de los programas de refuerzo FT y VT en el tratamiento de dos personas con retraso moderado a severo. Ambos individuos mostraron un comportamiento agresivo y, a veces, de autolesión.
Resultados:
“indicaron que los programas VT eran tan efectivos como los programas FT para reducir el comportamiento problemático” (p. 552).
Las implicaciones de que el programa de FP sea efectivo son significativas.
“Los cuidadores que implementan el tratamiento en el entorno natural tienen numerosas demandas de su tiempo y, por lo tanto, es probable que implementen los programas VT incluso cuando se les enseñó a usar los programas FT” (p. 556).
3. Mantener a los jóvenes estudiantes enfocados: intervalo fijo
Mantener a los estudiantes enfocados en su trabajo de clase es un desafío continuo para todos los maestros, especialmente para los maestros de jóvenes estudiantes. Los niños se distraen fácilmente y les resulta difícil mantener su atención en la tarea.
Riley et al. (2011) aplicaron un programa de refuerzo de intervalos fijos a dos estudiantes identificados por un maestro de clase que tenían dificultades para mantenerse enfocados.
En primer lugar, se registraron los comportamientos de los niños en la tarea y fuera de ella durante un período de referencia. A continuación, se instruyó al maestro para que brindara atención del maestro en tiempo fijo (FT) cada 5 minutos.
El maestro elogió el comportamiento en la tarea y redirigió la atención del estudiante para el comportamiento fuera de la tarea.
Los autores concluyeron que:
“Este estudio demuestra que la prestación de atención FT puede ser una estrategia eficaz que se utiliza para aumentar los comportamientos en la tarea y disminuir los comportamientos fuera de la tarea de los estudiantes con un desarrollo típico” (p. 159).
4. Tasas de éxito en la caza de depredadores: proporción variable
Aunque puede ser difícil de creer, algunos de los depredadores más temidos del mundo en realidad no son cazadores muy exitosos. Mientras que, al mismo tiempo, el lindo gato de tu vecino puede ser bastante mortal.
La tasa de éxito de un depredador se reduce a un programa de refuerzo particular, principalmente el programa de ración variable.
Por ejemplo, si la tasa de éxito de un depredador es del 100 %, sería un programa de razón fija de uno (FR-1); cada caza equivale a una comida. Eso no sucede.
La tasa de éxito real de la mayoría de los depredadores es de un solo dígito. Eso significa que la cantidad de intentos necesarios para recibir una recompensa cambia.
Una semana, un depredador podría tener que cazar 20 o 30 veces antes de tener éxito. Sin embargo, tal vez la próxima semana tengan éxito después de solo tres intentos.
Ese es un programa de razón variable. El número de cacerías requeridas para la recompensa es impredecible.
5. Hábitos de trabajo del Congreso de los EE. UU.: Intervalo fijo
El Congreso de los Estados Unidos trabaja en un horario de trabajo de intervalo fijo. Comienzan en enero y terminan a fin de año. Su comportamiento objetivo es aprobar proyectos de ley. Si este es el caso, entonces deberíamos ver un patrón de comportamiento que es típico de lo que se observa con el programa de reforzamiento de intervalo fijo.
Critchfield et al. (2003) analizaron la producción anual de proyectos de ley del Congreso durante un período de 52 años, con base en datos anuales de 1949 a 2000.
Los datos fueron tomados de la ''Resumen´ de la Actividad del Congreso'' una característica del volumen anual Daily Digest del Congressional Record (Washington, DC: Oficina de Imprenta del Gobierno de los Estados Unidos).
“En todos los años encuestados, se promulgaron pocos proyectos de ley durante los primeros meses de cada sesión, y el total acumulado tendió a acelerarse positivamente a medida que se acercaba el final de la sesión. A lo largo de más de medio siglo, entonces, se han promulgado proyectos de ley en un patrón festoneado distinto en cada sesión de cada Congreso” (p. 468).
Conclusión
Hay cuatro programas principales de refuerzo. Algunos se basan en cuánto tiempo transcurre, mientras que otros se basan en la frecuencia del comportamiento objetivo. Cada horario produce un patrón único de comportamiento.
Se pueden observar diferentes horarios en varios aspectos de la vida. Las personas que trabajan en ventas a veces son recompensadas al final de cada trimestre (intervalo fijo), mientras que otras pueden recibir una comisión por la compra de cada cliente (proporción fija).
Las máquinas tragamonedas son tan adictivas porque operan con un programa de proporción variable; uno nunca sabe cuándo vendrá una recompensa.
Los horarios de intervalos fijos y variables pueden ayudar a los niños con problemas de aprendizaje. Recompensar su comportamiento constructivo mejora su vida diaria y puede ayudarlos a aprender cómo funcionar en la sociedad.
Referencias
Critchfield, TS, Haley, R., Sabo, B., Colbert, J. y Macropoulis, G. (2003). Medio siglo de festoneado en los hábitos de trabajo del Congreso de los Estados Unidos. Revista de análisis de comportamiento aplicado, 36(4), 465-486.
Ferster, CB y Skinner, BF (1957). Horarios de refuerzo. Nueva York: Appleton-Century-Crofts.
Gris, P. (2007). Psicología (6el ed.). Worth Publishers, Nueva York.
Lorenz, R., Gleich, T., Gallinat, J. y Kühn, S. (2015). Entrenamiento de videojuegos y el sistema de recompensas. Fronteras en la neurociencia humana, 9, artículo 40, 1-9. https://doi.org/10.3389/fnhum.2015.00040
Riley, JL, McKevitt, BC, Shriver, MD y Allen, KD (2011). Aumentar el comportamiento en la tarea usando la atención del maestro entregada en un horario fijo. Revista de educación conductual, 20(3), 149-162.
Skinner, BF (1965). La ciencia y el comportamiento humano.. Nueva York: Prensa libre.
Staddon, JE y Cerutti, DT (2003). Condicionamiento operante. Revista anual de psicología., 54(1), 115-144.
Watson, TL, Skinner, CH, Skinner, AL, Cazzell, S., Aspiranti, KB, Moore, T. y Coleman, M. (2016). Prevención del comportamiento disruptivo a través de la gestión del aula: Validación del sistema de rueda de colores en las aulas de jardín de infantes. Modificación de comportamiento, 40(4), 518-540.
Thorndike, EL (1898). Inteligencia animal: un estudio experimental de los procesos asociativos en animales. The Psychological Review: suplementos de monografías, 2(4), yo.
Thorndike, EL (1905). Los elementos de la psicología.. Nueva York: AG Seiler.
Van Camp, CM, Lerman, DC, Kelley, ME, Contrucci, SA y Vorndran, CM (2000). Programas de refuerzo de tiempo variable en el tratamiento del comportamiento problemático mantenido socialmente. Revista de análisis de comportamiento aplicado, 33(4), 545-557.
Deja una respuesta