WebRL是由清华大学与智谱AI合作开发的一种自我进化的在线课程强化学习框架,专注于通过开放大型语言模型(LLMs)训练高性能网络代理。该框架利用动态任务生成、结果监督奖励模型(ORM)以及自适应强化学习策略,有效应对任务稀缺、反馈信号稀疏及策略分布漂移等问题。实验结果显示,WebRL显著提高了Llama-3.1和GLM-4等模型在WebArena-Lite基准测试中的成功率,超越了专有LLM API及之前的网络代理模型。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部