L'idée est que le robot essaye de gagner contre le joueur (l'algo d'entraînement optimise la collection de ressources), mais en modifiant le terrain d'entraînement le joueur fait en sorte que le robot apprenne une politique (i.e. un fonction qui choisit l'action à effectuer selon l'environnement immédiat du robot) qui le fasse tomber dans le piège.
Le tutorial et les deux premiers niveaux sont faisables, le troisième niveau est un grosse punition, même nous on a pas réussi (mais on a prouvé que c'était possible :-p).
Comme j'ai dit, c'est une preuve de concept fait en une semaine seulement, donc forcément c'est pas excellent, mais si vous avez des remarques, des suggestions, etc. hésitez pas, je fourrerai tout ça dans les issues du github et je les corrigerai la prochaine fois que j'ai une semaine de temps libre.