蒙特卡洛树搜索

Agent Q

Agent Q是一种自监督代理推理和搜索框架，结合了引导式蒙特卡洛树搜索（MCTS）、AI自我批评及直接偏好优化（DPO）等技术。该框架通过迭代微调和基于人类反馈的强化学习进行自我改进，在网页导航和多步任务执行中表现优异。Agent Q的主要功能包括引导式搜索、自我批评、迭代微调、多步推理任务和零样本学习。它在电子商务、在线预订服务、软件开发、客户服务、数据分析和个性化推荐等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 77 点赞 0 评论 697 浏览

Optima

Optima是一款由清华大学研发的框架，旨在通过迭代生成、排名、选择和训练过程，优化基于大型语言模型的多智能体系统。它不仅提高了通信效率和任务完成质量，还支持大规模复杂任务处理，同时集成了强化学习与蒙特卡洛树搜索技术以生成优质训练数据。Optima适用于信息不对称问答、复杂推理任务、软件开发等多个领域，具有高扩展性和低计算成本的特点。

AI项目与工具 2025年06月12日 73 点赞 0 评论 892 浏览

O1

O1-CODER是一款由北京交通大学研究团队开发的开源编码工具，专精于编程任务。它通过结合强化学习和蒙特卡洛树搜索技术，实现了从伪代码到完整代码的生成，并通过测试用例生成器和过程奖励模型优化代码质量。该工具支持自动化代码生成、代码质量提升、教育辅助以及软件测试等多种应用场景。

AI项目与工具 2025年06月12日 98 点赞 0 评论 750 浏览

360gpt2

360gpt2-o1是一款专注于数学与逻辑推理的人工智能大模型，具备强大的推理能力和深度学习能力。它通过合成数据优化、分阶段训练及“慢思考”范式提升了模型的表现，尤其在数学竞赛和基础数学评测中成绩显著。此外，模型还支持编程问题解决、复杂问题分析及教育领域应用，为企业决策提供逻辑支持。

AI项目与工具 2025年06月12日 62 点赞 0 评论 731 浏览

蒙特卡洛树搜索

首页

蒙特卡洛树搜索

列表

默认

浏览次数

发布日期

Agent Q

Optima

O1

360gpt2

蒙特卡洛树搜索 首页 蒙特卡洛树搜索

列表 默认 浏览次数 发布日期

Agent Q

Optima

O1

360gpt2

蒙特卡洛树搜索

首页

蒙特卡洛树搜索

列表

默认

浏览次数

发布日期