强化学习 - 智狐AI导航

KuaiMod

KuaiMod 是快手开发的多模态大模型内容审核系统，能高效识别和过滤有害及低质量视频。它结合视觉语言模型（VLM）和链式推理（CoT）技术，支持动态策略更新和强化学习，提升审核准确性。系统在离线测试中准确率达92.4%，有效降低用户举报率，优化推荐体验，助力平台内容生态健康发展。

AI项目与工具 2025年06月11日 91 点赞 0 评论 682 浏览

WebThinker

WebThinker是一款由多家科研机构联合开发的AI工具，旨在增强大型推理模型在复杂任务中的表现。它支持自主搜索、网页导航与实时报告生成，结合深度网页探索器和强化学习策略，提升信息获取与内容创作的效率与质量。适用于科学研究、数据分析、教育辅助等多种场景，显著增强了模型在知识密集型任务中的可靠性与实用性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 786 浏览

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开发的基于大模型的搜索引擎框架，通过强化学习技术提升搜索能力，无需依赖真实搜索引擎。它能动态生成相关或噪声文档，显著降低训练成本（超80%），并支持多种模型和算法，适用于问答、内容创作、教育等多个场景。

AI项目与工具 2025年06月11日 90 点赞 0 评论 939 浏览

Absolute Zero

Absolute Zero是由清华大学LeapLab团队联合多家机构研发的新型语言模型推理训练方法，采用自我生成任务并自主解决的机制，实现无需人工标注数据的自我进化学习。模型通过与环境交互获取反馈，持续优化推理能力，支持归纳、演绎和溯因等多种推理模式。其核心在于推动模型从依赖人类监督转向环境反馈驱动，具备跨领域泛化能力和零数据训练特性，适用于通用人工智能、代码生成、数学推理等多个应用场景。

AI项目与工具 2025年06月11日 90 点赞 0 评论 747 浏览

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型，具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序，并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异，适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。

AI项目与工具 2025年06月11日 75 点赞 0 评论 673 浏览

T2I

T2I-R1是由香港中文大学与上海AI Lab联合开发的文本到图像生成模型，采用双层推理机制（语义级和 Token 级 CoT），实现高质量图像生成与复杂场景理解。其基于 BiCoT-GRPO 强化学习框架，结合多专家奖励模型，提升生成图像的多样性和稳定性。适用于创意设计、内容制作、教育辅助等多个领域，具有广泛的应用潜力。

AI项目与工具 2025年06月11日 63 点赞 0 评论 726 浏览

DianJin

DianJin-R1是由阿里云与苏州大学联合开发的金融领域推理增强型大模型，基于CFLUE、FinQA和CCC等高质量数据集训练，通过监督微调和强化学习优化，提升金融任务的推理能力。模型支持结构化输出，具备高效推理与低计算成本优势，在合规检查、金融问答、考试辅助等领域表现优异，适用于多种金融应用场景。

AI项目与工具 2025年06月11日 68 点赞 0 评论 719 浏览

Pokee AI

Pokee AI 是一个基于强化学习技术的 AI Agent 开发平台，具备高效任务规划、灵活工具调用、强大推理能力及个性化服务特点。它适用于电商、内容创作、数据分析、客户服务和企业自动化等多个场景，能够快速响应用户指令，提升工作效率与用户体验。

AI项目与工具 2025年06月11日 87 点赞 0 评论 780 浏览

Xiaomi MiMo

Xiaomi MiMo 是小米推出的推理型大模型，具备强大的数学推理与代码生成能力。通过预训练与后训练相结合，利用大量高价值语料及强化学习算法，在 7B 参数规模下实现超越更大模型的表现。支持多场景应用，包括教育、科研、软件开发等，已开源至 HuggingFace，便于开发者使用与研究。

AI项目与工具 2025年06月11日 95 点赞 0 评论 881 浏览

RAGEN

RAGEN是一款开源的强化学习框架，专为在交互式和随机环境中训练大型语言模型（LLM）推理代理而设计。它基于StarPO架构，支持多轮轨迹优化和多种强化学习算法，如PPO和GRPO。通过MDP形式化和渐进式奖励归一化策略，RAGEN提高了训练的稳定性和效率。其模块化设计支持多种环境，适用于智能对话、游戏AI、自动化推理等多个领域。

AI项目与工具 2025年06月11日 84 点赞 0 评论 775 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期