Les applications de l'apprentissage par renforcement: Les jeux

 

En 2016, AlphaGo est devenu le premier programme à gagner au jeu de Go contre un joueur professionnel. AlphaGo de Google a battu le joueur de renommée mondiale Lee Sedol quatre matchs sur cinq. Le go est un jeu très exigeant nécessitant de la réflexion stratégique et adaptative. Oui, c'est encore plus dur que les échecs ! Il est étonnant qu'un ordinateur ait pu surpasser un humain extrêmement doué.

Vous vous demandez peut-être qui a appris à AlphaGo à être aussi bon. Croyez-le ou non, l'ordinateur l’a appris tout seul,grâce à l'apprentissage par renforcement. Après avoir analysé des millions de parties de Go, AlphaGo a pu apprendre par lui-même : en étant récompensé pour avoir pris les bonnes décisions et puni pour avoir pris les mauvaises, la machine a pu établir un système pour maximiser les probabilités de récompense, exécutant ainsi les meilleurs mouvements.