强化学习

QwenLong

QwenLong-L1-32B是阿里巴巴集团Qwen-Doc团队开源的首个长文本推理大模型,基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略,显著提升长文本场景下的推理能力。该模型在多个DocQA基准测试中表现优异,平均准确率达70.7%,超越多个现有旗舰模型。其功能包括长文本推理、稳定训练、混合奖励、广泛适用性和高性能表现,适用于法律、金融、科研等多个领域。

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架,结合大型语言模型与视频扩散模型,实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入,精确控制摄像机运动轨迹,具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果,并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域,提高视频创作效率与质量。

Seedream 2.0

Seedream 2.0 是字节跳动豆包团队推出的中英双语图像生成模型,具备强大的文本理解和渲染能力,可生成具有文化细节和美学表达的高质量图像。支持多分辨率生成、字符级文本处理,并通过强化学习优化性能,适用于海报设计、社交媒体、绘画创作等多领域应用。

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开发的基于大模型的搜索引擎框架,通过强化学习技术提升搜索能力,无需依赖真实搜索引擎。它能动态生成相关或噪声文档,显著降低训练成本(超80%),并支持多种模型和算法,适用于问答、内容创作、教育等多个场景。

Pokee AI

Pokee AI 是一个基于强化学习技术的 AI Agent 开发平台,具备高效任务规划、灵活工具调用、强大推理能力及个性化服务特点。它适用于电商、内容创作、数据分析、客户服务和企业自动化等多个场景,能够快速响应用户指令,提升工作效率与用户体验。

Operator

Operator是由OpenAI开发的AI工具,基于Computer-Using Agent(CUA)模型,能够模拟人类操作网页浏览器,完成如预订、购物、表单填写等任务。它结合了GPT-4o的视觉识别能力和强化学习的推理能力,支持多任务处理和个性化设置。具备自我纠错、安全防护及隐私保护机制,在涉及敏感信息时会请求用户接管。适用于自动化购物、数据分析、日程安排等多种场景。

Devstral

Devstral是由Mistral AI和All Hands AI推出的编程专用AI模型,专为软件工程任务设计。它在SWE-Bench Verified基准测试中表现优异,能处理复杂代码库、识别组件关系并修复细微错误。该工具轻量级,支持本地部署和企业级应用,具备代码生成与优化、集成开发工具、持续学习等能力,适用于本地开发、企业开发、IDE集成等多种场景。

SWEET

SWEET-RL是Meta开发的多轮强化学习框架,专为提升大型语言模型在协作推理任务中的表现而设计。通过引入训练时的额外信息优化“批评者”模型,实现精准的信用分配与策略优化。在ColBench基准测试中,其在后端编程和前端设计任务中表现出色,成功率提升6%。适用于文本校对、社交媒体审核、广告合规等多种场景,具备高度的通用性和适应性。

DanceGRPO

DanceGRPO 是由字节跳动与香港大学联合开发的视觉生成强化学习框架,支持文本到图像、文本到视频、图像到视频等多种任务,兼容多种生成模型与奖励机制。其通过强化学习优化生成过程,提升视觉内容质量与一致性,降低显存压力,提高训练效率与稳定性,适用于视频生成和多模态内容创作。

SignLLM

SignLLM是一款支持多语言手语生成的AI模型,能将文本转换为自然流畅的手语视频,覆盖包括ASL、GSL、LSA、KSL在内的八种手语。其核心技术包括离散化与层次化表示、自监督学习、符号-文本对齐等。该工具可用于教育、医疗、法律、媒体等多个场景,提升听障人群的沟通便利性与信息获取能力。