强化学习 - 智狐AI导航

RLCM

RLCM是由康奈尔大学开发的一种基于强化学习的文本到图像生成框架，通过微调一致性模型以适应特定任务的奖励函数，显著提升生成效率与图像质量。其核心技术包括强化学习、策略梯度优化及任务导向的奖励机制，适用于艺术创作、数据集扩展、图像修复等多个领域，具有高效的推理能力和对复杂任务的适应性。

AI项目与工具 2025年06月12日 69 点赞 0 评论 539 浏览

TÜLU 3

TÜLU 3是艾伦人工智能研究所发布的开源指令遵循模型，提供8B、70B及未来的405B版本。它通过后训练技术显著提升了模型在数学、编程和推理等方面的表现，同时支持多种任务处理和创新的后训练方法，适用于自然语言处理、教育、编程开发及内容创作等多个领域。

AI项目与工具 2025年06月12日 88 点赞 0 评论 545 浏览

k0

k0-math是一款基于强化学习和思维链推理技术的新一代数学推理模型，由月之暗面推出。它在多个数学基准测试中表现出色，特别是在中考、高考、考研及竞赛级数学题库中的成绩超越了OpenAI的o1-mini和o1-preview模型。k0-math具备深入思考、规划解题思路以及自我反思优化的能力，适用于教育辅导、在线教育平台、竞赛培训、学术研究及自动化测试与评分等多个场景。

AI项目与工具 2025年06月12日 45 点赞 0 评论 575 浏览

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型，具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序，并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异，适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。

AI项目与工具 2025年06月11日 75 点赞 0 评论 588 浏览

WebRL

WebRL是一种由清华大学与智谱AI共同研发的自我进化的强化学习框架，专注于通过开放大型语言模型优化网络代理性能。该框架采用动态任务生成与结果监督奖励机制，并结合自适应强化学习策略，解决了任务稀缺和反馈稀疏等问题。其显著提升了开源模型在WebArena-Lite基准测试中的表现，具备自我进化、持续改进的特点。

AI项目与工具 2025年06月12日 75 点赞 0 评论 598 浏览

KuaiMod

KuaiMod 是快手开发的多模态大模型内容审核系统，能高效识别和过滤有害及低质量视频。它结合视觉语言模型（VLM）和链式推理（CoT）技术，支持动态策略更新和强化学习，提升审核准确性。系统在离线测试中准确率达92.4%，有效降低用户举报率，优化推荐体验，助力平台内容生态健康发展。

AI项目与工具 2025年06月11日 91 点赞 0 评论 604 浏览

Agent Q是一种自监督代理推理和搜索框架，结合了引导式蒙特卡洛树搜索（MCTS）、AI自我批评及直接偏好优化（DPO）等技术。该框架通过迭代微调和基于人类反馈的强化学习进行自我改进，在网页导航和多步任务执行中表现优异。Agent Q的主要功能包括引导式搜索、自我批评、迭代微调、多步推理任务和零样本学习。它在电子商务、在线预订服务、软件开发、客户服务、数据分析和个性化推荐等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 77 点赞 0 评论 609 浏览

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型，擅长处理图像与文本信息，具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异，支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术，提升推理准确性与可解释性，适用于科研、教育、医疗及自动驾驶等场景。

AI项目与工具 2025年06月12日 92 点赞 0 评论 620 浏览

k1.5

k1.5 是月之暗面推出的多模态思考模型，具备强大的数学、代码、视觉推理能力。在 short-CoT 模式下，性能超越主流模型 550%，在 long-CoT 模式下达到 OpenAI o1 水平。支持文本与图像的联合处理，适用于复杂推理、跨模态分析、教育、科研等领域。通过长上下文扩展和策略优化，提升推理效率与准确性。

AI项目与工具 2025年06月12日 38 点赞 0 评论 629 浏览

ASAP

ASAP是一种由卡内基梅隆大学与英伟达联合开发的两阶段框架，用于解决仿人机器人在模拟与现实之间动力学不匹配的问题。它通过预训练阶段在模拟环境中学习运动策略，并在后训练阶段利用真实数据训练Delta动作模型，补偿动力学差异。该框架提高了机器人在复杂任务中的敏捷性、协调性和运动精度，支持多种应用场景，如体育、救援、工业、家庭服务及虚拟现实等，为仿人机器人的实际应用提供了高效的技术方案。

AI项目与工具 2025年06月12日 19 点赞 0 评论 631 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期