OpenR是由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学共同研发的开源框架,旨在通过结合搜索、强化学习和过程监督提升大型语言模型(LLM)的推理能力。该框架受到OpenAI的o1模型的启发,采用强化学习显著提高模型推理性能。作为首个提供集成技术开源实现的框架,OpenR支持LLM通过高效的数据获取、训练和推理路径实现高级推理。它支持在线强化学习训练及多种搜索策略,并遵循测试时扩展原则,允许模型在测试时通过生成或搜索方式提供精细化输出。此外,OpenR提供自动化数据管道,从结果标签中提取推理步骤,从而减少人工标注工作量并确保收集有价值的信息。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部