近日,北京大学人工智能研究院多智能体中心杨耀东助理教授团队在NeurIPS 2022发表论文“Meta-Reward-Net: Implicitly Differentiable Reward Learning for Preference-based Reinforcement Learning”。该工作提出了一个反馈高效的偏好强化学习(Preference-based ...