Aprendizaje por refuerzo o cómo la psicología conductista está cambiando la IA

aprendizaje por refuerzo

Innovación

La inteligencia artificial es fundamentalmente diferente a la inteligencia humana. Y, aun así, ambas comparten algunas similitudes.

Nuestro cerebro se estructura alrededor de neuronas que reciben y envían datos de forma simultánea. Pero en una IA, ambos procesos están bien diferenciados. En el órgano humano no existe separación entre hardware y software, ni tampoco hay una infraestructura de almacenamiento similar a un disco duro. Además, el cerebro se articula en el caos y está preparado para adaptarse a un contexto imprevisible.

A nivel estructura, no parece haber más que diferencias. Lo mismo sucede si observamos su funcionamiento. La capacidad operacional, la velocidad y la precisión de la IA nunca podrán ser alcanzadas por una inteligencia humana. Sin embargo, la IA (por ahora) flaquea si la sacamos de trabajos monótonos y si no cuenta con datos con cierta estructura. Además, el razonamiento y las emociones tampoco son lo suyo.

Pero es en la forma de aprender donde encontramos ciertas similitudes. No en vano, quienes diseñan las inteligencias artificiales se inspiran en la ciencia del aprendizaje humano. Y así es cómo la psicología conductista se coló en el desarrollo del machine learning.

Una campana y una partida de Go

deep reinforcement learning en una partida de go

La historia del perro de Pávlov es, probablemente, una de las más conocidas de la historia de la psicología. Esa que dice que Iván Pávlov demostró que un perro podía salivar ante el mero tañido de una campana (aunque, en realidad, nunca existió tal campana, fue un metrónomo) porque asociaba el sonido a comida. Es decir, probó que se podía reforzar la respuesta a un estímulo y se convirtió en uno de los padres de la psicología conductista.

Casi un siglo más tarde de los experimentos de Pávlov, una inteligencia artificial logró hacer uso del conductismo y, en particular, del reforzamiento positivo, para ganar una partida de Go. En 2016, AlphaGo, desarrollado por el departamento Google DeepMind, sumaba la primera victoria de las máquinas a Go, un juego milenario que hasta ese momento se había resistido a la inteligencia artificial debido a su complejidad.

Esa victoria significó un antes y un después en el aprendizaje por refuerzo (RL, por sus siglas en inglés), un área de machine learning inspirada en el conductismo que busca que una IA sea capaz de escoger determinadas acciones para alcanzar una recompensa. La inteligencia artificial prueba varias soluciones, observa la reacción y consigue adaptarse para escoger la mejor estrategia.

El futuro es del deep reinforcement learning

drl en conducción autónoma

El aprendizaje por refuerzo no es exactamente nuevo, pero como todo lo relacionado con la inteligencia artificial se ha desarrollado de forma exponencial en la última década. El potencial de este modelo de machine learning reside en su capacidad para operar en entornos complejos y adaptarse. Es decir, logra que la inteligencia artificial se parezca un poquito más a la inteligencia humana.

La IA de AlphaGo logró vencer a Lee Sedol, uno de los mejores jugadores de Go del mundo, combinando el poder del aprendizaje por refuerzo con las redes neuronales, el llamado deep reinforcement learning o DLR. AlphaGo se entrenó mediante redes neuronales para imitar a los jugadores humanos y luego practicó consigo misma mediante aprendizaje por refuerzo hasta lograr ser prácticamente imbatible.

Sobre la base del DLR se están desarrollando hoy algunas de las aplicaciones más prometedoras de la inteligencia artificial.

La revolución de la movilidad

Si pensamos en el futuro de la movilidad, el coche autónomo acapara casi toda nuestra imaginación. Para hacer realidad la conducción autónoma, la IA tiene que aprender a imitar el comportamiento humano al volante y, al mismo tiempo, aprender a reaccionar a un entorno complejo y cambiante, adaptándose a cada situación.

En este escenario, el deep reinforcement learning es uno de los enfoques más utilizados por las empresas que lideran este nuevo sector, como Tesla. O la startup inglesa Wayve, que ha demostrado cómo, mediante DRL, se puede enseñar a un coche a conducir en menos de una hora. Como se puede ver en el vídeo, tras 11 correcciones humanas, la IA aprende a llevar el coche en línea recta.

La industria y la automatización

El entorno industrial también es complejo y cambiante. Para avanzar en la automatización real de las fábricas y en la colaboración entre humanos y robots, el aprendizaje por refuerzo está cobrando cada vez más importancia.

La startup Bonsai, comprada por Microsoft hace dos años, ha desarrollado, por ejemplo, una plataforma de DRL para que una fábrica concreta pueda entrenar inteligencias artificiales que cubran sus necesidades sin necesidad de desarrollarla desde cero. El modelo de aprendizaje reforzado también se está utilizando para mejorar la destreza de los robots y que así sean capaces de manipular todo tipo de objetos físicos sin riesgos.

El camino del deep reinforcement learning no es el único en el futuro de la IA. Pero sí uno de los más prometedores. Uno en el que la inteligencia artificial intenta parecerse un poco más a la inteligencia humana, sin perder las características que la hacen única.

Por Juan F. Samaniego

Imágenes | Unsplash/Mina FC, Gabe Pierce, Pixabay/OrcaTec

Archivado en
Subir