No more hand-tuning rewards: Masked constrained policy optimization for safe reinforcement learning

Van Havermaet, StefStefVan HavermaetKhaluf, YaraYaraKhalufSimoens, PieterPieterSimoens2021-10-312021-10-312021https://imec-publications.be/handle/20.500.12860/37290No more hand-tuning rewards: Masked constrained policy optimization for safe reinforcement learningProceedings paperhttp://www.ifaamas.org/Proceedings/aamas2021/pdfs/p1344.pdf