WebRL是由清华大学与智谱AI合作开发的一种自我进化的在线课程强化学习框架,专注于通过开放大型语言模型(LLMs)训练高性能网络代理。该框架利用动态任务生成、结果监督奖励模型(ORM)以及自适应强化学习策略,有效应对任务稀缺、反馈信号稀疏及策略分布漂移等问题。实验结果显示,WebRL显著提高了Llama-3.1和GLM-4等模型在WebArena-Lite基准测试中的成功率,超越了专有LLM API及之前的网络代理模型。
WebRL是由清华大学与智谱AI合作开发的一种自我进化的在线课程强化学习框架,专注于通过开放大型语言模型(LLMs)训练高性能网络代理。该框架利用动态任务生成、结果监督奖励模型(ORM)以及自适应强化学习策略,有效应对任务稀缺、反馈信号稀疏及策略分布漂移等问题。实验结果显示,WebRL显著提高了Llama-3.1和GLM-4等模型在WebArena-Lite基准测试中的成功率,超越了专有LLM API及之前的网络代理模型。
发表评论 取消回复