策略更新

首页

策略更新

列表

默认

浏览次数

发布日期

WebRL

WebRL是一种由清华大学与智谱AI共同研发的自我进化的强化学习框架，专注于通过开放大型语言模型优化网络代理性能。该框架采用动态任务生成与结果监督奖励机制，并结合自适应强化学习策略，解决了任务稀缺和反馈稀疏等问题。其显著提升了开源模型在WebArena-Lite基准测试中的表现，具备自我进化、持续改进的特点。

AI项目与工具 2025年06月12日 75 点赞 0 评论 663 浏览

策略更新 首页 策略更新

列表 默认 浏览次数 发布日期

WebRL

策略更新

首页

策略更新

列表

默认

浏览次数

发布日期