WebRL

简介：WebRL是一种由清华大学与智谱AI共同研发的自我进化的强化学习框架，专注于通过开放大型语言模型优化网络代理性能。该框架采用动态任务生成与结果监督奖励机制，并结合自适应强化学习策略，解决了任务稀缺和反馈稀疏等问题。其显著提升了开源模型在WebArena-Lite基准测试中的表现，具备自我进化、持续改进的特点。

AI小编 663 阅读 0 评论 75 点赞

项目地址

WebRL是由清华大学与智谱AI合作开发的一种自我进化的在线课程强化学习框架，专注于通过开放大型语言模型（LLMs）训练高性能网络代理。该框架利用动态任务生成、结果监督奖励模型（ORM）以及自适应强化学习策略，有效应对任务稀缺、反馈信号稀疏及策略分布漂移等问题。实验结果显示，WebRL显著提高了Llama-3.1和GLM-4等模型在WebArena-Lite基准测试中的成功率，超越了专有LLM API及之前的网络代理模型。

本文分类：AI项目与工具
本文标签：自我进化强化学习动态任务生成 ORM 策略更新开源模型网络代理在线课程 WebArena-Lite
浏览次数：663 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10532.html

评论列表共有 0 条评论

暂无评论

WebRL

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复