强化学习 - 智狐AI导航

QwenLong

QwenLong-L1-32B是阿里巴巴集团Qwen-Doc团队开源的首个长文本推理大模型，基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升长文本场景下的推理能力。该模型在多个DocQA基准测试中表现优异，平均准确率达70.7%，超越多个现有旗舰模型。其功能包括长文本推理、稳定训练、混合奖励、广泛适用性和高性能表现，适用于法律、金融、科研等多个领域。

AI项目与工具 2025年06月11日 24 点赞 0 评论 793 浏览

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent，具备端到端的自主信息检索与多步推理能力。它能主动搜索多个学术数据库，筛选、分析最相关的文献，整合不同文献中的观点，为用户提供全面且精准的研究报告。WebAgent基于创新的数据合成方法和高效的训练策略，实现高效的多步推理和信息检索能力，适用于学术研究、商业决策和日常生活等多种场景。

AI项目与工具 2025年06月11日 20 点赞 0 评论 735 浏览

DeepEyes

DeepEyes是由小红书团队和西安交通大学联合开发的多模态深度思考模型，基于端到端强化学习实现“用图思考”能力，无需依赖监督微调。它在推理过程中动态调用图像工具，增强对细节的感知与理解，在视觉推理基准测试V* Bench上准确率高达90.1%。具备图像定位、幻觉缓解、多模态推理和动态工具调用等功能，适用于教育、医疗、交通、安防和工业等多个领域。

AI项目与工具 2025年06月11日 21 点赞 0 评论 501 浏览

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间，实现从粗粒度到细粒度的信息获取，并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理，具备良好的可扩展性，适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

AI项目与工具 2025年06月11日 84 点赞 0 评论 882 浏览

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型，针对深度思考大模型的“过度思考”问题，提出了一种全新的训练范式。模型融合“思考”和“非思考”能力，能根据问题难度自动切换模式，提升复杂任务表现。在代码和数学类任务中，性能提升可达20分。其技术原理包括最小提示干预和多阶段强化学习，适用于视频生成、文案创作、智能客服等多个场景。

AI项目与工具 2025年06月11日 26 点赞 0 评论 551 浏览

MaskSearch

MaskSearch是阿里巴巴通义实验室推出的新型通用预训练框架，通过检索增强掩码预测（RAMP）任务提升大型语言模型（LLM）的智能体搜索能力。该工具利用外部知识库和搜索工具预测被掩盖的关键信息，增强模型对复杂问题的理解和回答能力。结合SFT和强化学习（RL）训练方法，采用多智能体协同生成思维链数据，并引入课程学习策略优化模型性能。适用于智能客服、教育、企业搜索及机器学习模型调试等多个场景。

摄影壁纸 2025年06月11日 46 点赞 0 评论 190 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期

QwenLong

WebAgent

DeepEyes

VRAG

Auto Think

MaskSearch

强化学习 首页 强化学习

列表 默认 浏览次数 发布日期

QwenLong

WebAgent

DeepEyes

VRAG

Auto Think

MaskSearch

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期