自我进化 - 智狐AI导航

WebRL

WebRL是一种由清华大学与智谱AI共同研发的自我进化的强化学习框架，专注于通过开放大型语言模型优化网络代理性能。该框架采用动态任务生成与结果监督奖励机制，并结合自适应强化学习策略，解决了任务稀缺和反馈稀疏等问题。其显著提升了开源模型在WebArena-Lite基准测试中的表现，具备自我进化、持续改进的特点。

AI项目与工具 2025年06月12日 75 点赞 0 评论 661 浏览

MATRIX

MATRIX-Gen是一个基于多智能体模拟技术的系统，通过构建虚拟社会生成高质量训练指令数据，用于提升大型语言模型的表现。该工具支持多种应用场景，如软件开发、商业活动、医疗诊断、教育和客户服务，能够显著提高模型在不同领域的性能，并促进其自我进化。

AI项目与工具 2025年06月12日 73 点赞 0 评论 757 浏览

rStar

rStar-Math是由微软亚洲研究院研发的数学推理工具，采用蒙特卡洛树搜索（MCTS）驱动的深度思考机制，使小型语言模型在数学推理方面达到或超越大型模型水平。通过代码增强的推理轨迹生成、过程偏好模型（PPM）训练和四轮自我进化策略，显著提升了模型的准确率与自我反思能力。该工具已在多个数学基准测试中取得优异成绩，适用于教育、科研、金融、工程和数据分析等多个领域。

AI项目与工具 2025年06月12日 60 点赞 0 评论 894 浏览

DeepSeek R1

DeepSeek R1-Zero 是一款基于纯强化学习训练的推理模型，无需监督微调即可实现高效推理。在 AIME 2024 竞赛中 Pass@1 分数达到 71.0%，展现强大逻辑与数学推理能力。支持长上下文处理，具备自我进化、多任务泛化等特性，并通过开源和蒸馏技术推动模型应用与优化。

AI项目与工具 2025年06月12日 34 点赞 0 评论 610 浏览

自我进化

首页

自我进化

列表

默认

浏览次数

发布日期

WebRL

MATRIX

rStar

DeepSeek R1

自我进化 首页 自我进化

列表 默认 浏览次数 发布日期

WebRL

MATRIX

rStar

DeepSeek R1

自我进化

首页

自我进化

列表

默认

浏览次数

发布日期