强化学习 - 智狐AI导航

T2I

T2I-R1是由香港中文大学与上海AI Lab联合开发的文本到图像生成模型，采用双层推理机制（语义级和 Token 级 CoT），实现高质量图像生成与复杂场景理解。其基于 BiCoT-GRPO 强化学习框架，结合多专家奖励模型，提升生成图像的多样性和稳定性。适用于创意设计、内容制作、教育辅助等多个领域，具有广泛的应用潜力。

AI项目与工具 2025年06月11日 63 点赞 0 评论 726 浏览

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型，具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序，并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异，适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。

AI项目与工具 2025年06月11日 75 点赞 0 评论 673 浏览

Absolute Zero

Absolute Zero是由清华大学LeapLab团队联合多家机构研发的新型语言模型推理训练方法，采用自我生成任务并自主解决的机制，实现无需人工标注数据的自我进化学习。模型通过与环境交互获取反馈，持续优化推理能力，支持归纳、演绎和溯因等多种推理模式。其核心在于推动模型从依赖人类监督转向环境反馈驱动，具备跨领域泛化能力和零数据训练特性，适用于通用人工智能、代码生成、数学推理等多个应用场景。

AI项目与工具 2025年06月11日 90 点赞 0 评论 746 浏览

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开发的基于大模型的搜索引擎框架，通过强化学习技术提升搜索能力，无需依赖真实搜索引擎。它能动态生成相关或噪声文档，显著降低训练成本（超80%），并支持多种模型和算法，适用于问答、内容创作、教育等多个场景。

AI项目与工具 2025年06月11日 90 点赞 0 评论 938 浏览

WebThinker

WebThinker是一款由多家科研机构联合开发的AI工具，旨在增强大型推理模型在复杂任务中的表现。它支持自主搜索、网页导航与实时报告生成，结合深度网页探索器和强化学习策略，提升信息获取与内容创作的效率与质量。适用于科学研究、数据分析、教育辅助等多种场景，显著增强了模型在知识密集型任务中的可靠性与实用性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 786 浏览

KuaiMod

KuaiMod 是快手开发的多模态大模型内容审核系统，能高效识别和过滤有害及低质量视频。它结合视觉语言模型（VLM）和链式推理（CoT）技术，支持动态策略更新和强化学习，提升审核准确性。系统在离线测试中准确率达92.4%，有效降低用户举报率，优化推荐体验，助力平台内容生态健康发展。

AI项目与工具 2025年06月11日 91 点赞 0 评论 682 浏览

DanceGRPO

DanceGRPO 是由字节跳动与香港大学联合开发的视觉生成强化学习框架，支持文本到图像、文本到视频、图像到视频等多种任务，兼容多种生成模型与奖励机制。其通过强化学习优化生成过程，提升视觉内容质量与一致性，降低显存压力，提高训练效率与稳定性，适用于视频生成和多模态内容创作。

AI项目与工具 2025年06月11日 45 点赞 0 评论 894 浏览

Devstral

Devstral是由Mistral AI和All Hands AI推出的编程专用AI模型，专为软件工程任务设计。它在SWE-Bench Verified基准测试中表现优异，能处理复杂代码库、识别组件关系并修复细微错误。该工具轻量级，支持本地部署和企业级应用，具备代码生成与优化、集成开发工具、持续学习等能力，适用于本地开发、企业开发、IDE集成等多种场景。

AI项目与工具 2025年06月11日 35 点赞 0 评论 1035 浏览

QwenLong

QwenLong-L1-32B是阿里巴巴集团Qwen-Doc团队开源的首个长文本推理大模型，基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升长文本场景下的推理能力。该模型在多个DocQA基准测试中表现优异，平均准确率达70.7%，超越多个现有旗舰模型。其功能包括长文本推理、稳定训练、混合奖励、广泛适用性和高性能表现，适用于法律、金融、科研等多个领域。

AI项目与工具 2025年06月11日 24 点赞 0 评论 793 浏览

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent，具备端到端的自主信息检索与多步推理能力。它能主动搜索多个学术数据库，筛选、分析最相关的文献，整合不同文献中的观点，为用户提供全面且精准的研究报告。WebAgent基于创新的数据合成方法和高效的训练策略，实现高效的多步推理和信息检索能力，适用于学术研究、商业决策和日常生活等多种场景。

AI项目与工具 2025年06月11日 20 点赞 0 评论 733 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期

T2I