• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  •  science >> Ciencia >  >> Otro
    Las simulaciones basadas en el aprendizaje por refuerzo muestran que el deseo humano de querer siempre más puede acelerar el aprendizaje

    Diseño del entorno. (a) El entorno gridworld bidimensional utilizado en el Experimento 1. (b) Para estudiar las propiedades de la recompensa óptima, hicimos varias modificaciones al entorno gridworld. Fila superior:en el entorno de aprendizaje de una sola vez, el agente podría optar por permanecer en el lugar de la comida constantemente después de llegar a él. En el entorno de aprendizaje de por vida, el agente fue teletransportado a una ubicación aleatoria en el gridworld tan pronto como alcanzó el estado de alimento. Fila central:en el entorno estacionario, la comida permaneció en el mismo lugar durante toda la vida del agente. En el entorno no estacionario, la comida cambiaba de ubicación durante la vida del agente. Fila inferior:usamos un gridworld de tamaño 7 × 7 para simular una configuración de recompensa densa. Para simular una configuración de recompensa escasa, aumentamos el tamaño del gridworld a 13 × 13. Crédito:PLOS Computational Biology (2022). DOI:10.1371/diario.pcbi.1010316

    Un trío de investigadores, dos de la Universidad de Princeton y el otro del Instituto Max Planck de Cibernética Biológica, ha desarrollado una simulación basada en el aprendizaje por refuerzo que muestra que el deseo humano de querer siempre más puede haber evolucionado como una forma de acelerar el aprendizaje. En su artículo publicado en PLOS Computational Biology de acceso abierto , Rachit Dubey, Thomas Griffiths y Peter Dayan describen los factores que intervinieron en sus simulaciones.

    Los investigadores que estudian el comportamiento humano a menudo se han sentido desconcertados por los deseos aparentemente contradictorios de las personas. Muchas personas tienen un deseo incesante de más de ciertas cosas, aunque saben que satisfacer esos deseos puede no resultar en el resultado deseado. Mucha gente quiere más y más dinero, por ejemplo, con la idea de que más dinero les facilitaría la vida, lo que les debería hacer más felices. Pero una gran cantidad de estudios ha demostrado que ganar más dinero rara vez hace que las personas sean más felices (con la excepción de aquellos que parten de un nivel de ingresos muy bajo). En este nuevo esfuerzo, los investigadores buscaron comprender mejor por qué las personas habrían evolucionado de esta manera. Con ese fin, construyeron una simulación para imitar la forma en que los humanos responden emocionalmente a los estímulos, como el logro de objetivos. Y para comprender mejor por qué las personas pueden sentirse como lo hacen, agregaron puntos de control que podrían usarse como un barómetro de felicidad.

    La simulación se basó en el aprendizaje por refuerzo, en el que las personas (o una máquina) continúan haciendo cosas que ofrecen una recompensa positiva y dejan de hacer cosas que no ofrecen recompensa o una recompensa negativa. Los investigadores también agregaron reacciones emocionales simuladas a los impactos negativos conocidos de la habituación y la comparación, por lo que las personas se vuelven menos felices con el tiempo a medida que se acostumbran a algo nuevo y se vuelven menos felices cuando ven que otra persona tiene más de lo que quieren.

    Al ejecutar la simulación, los investigadores descubrieron que lograba los objetivos más rápido cuando entraban en juego la habituación y la comparación, una sugerencia de que tales reacciones emocionales también podrían desempeñar un papel en el aprendizaje más rápido en los humanos. También encontraron que la simulación terminó menos "feliz" cuando se enfrentaron a más opciones con respecto a posibles opciones alcanzables que cuando solo había unas pocas para elegir.

    Los investigadores sugieren que la razón por la que las personas son propensas a quedar atrapadas en un ciclo interminable de querer siempre más es porque, en general, ayuda a los humanos a aprender más rápido. + Explora más

    Felicidad:por qué el aprendizaje, y no las recompensas, puede ser la clave

    © 2022 Red Ciencia X




    © Ciencia https://es.scienceaq.com