Meta Reinforcement Learning

人工智能研究院杨耀东助理教授团队在RLHF技术方向研究取得重大进展

近日，北京大学人工智能研究院多智能体中心杨耀东助理教授团队在NeurIPS 2022发表论文“Meta-Reward-Net: Implicitly Differentiable Reward Learning for Preference-based Reinforcement Learning”。该工作提出了一个反馈高效的偏好强化学习（Preference-based ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

人工智能研究院杨耀东助理教授团队在RLHF技术方向研究取得重大进展

今日热点