强化学习 - 智狐AI导航

Psi R0

Psi R0是一款基于强化学习的端到端具身模型，支持双灵巧手协同操作，具备多技能串联混训和跨物品、跨场景的泛化能力。通过仿真数据训练及技能优化，Psi R0能在复杂环境中完成长程任务，同时具备自主切换技能的功能，确保高成功率和鲁棒性。主要应用场景包括电商商品打包、工厂产线组装、服务业拣货打包及家居环境清洁整理。

AI项目与工具 2025年06月12日 18 点赞 0 评论 775 浏览

OpenAI 12天发布会内容全记录，一文快速捕捉亮点信息

OpenAI举办为期12天的系列发布活动，推出包括强化微调技术、Sora视频生成工具、ChatGPT Canvas和高级语音模式在内的多项创新功能，涵盖推理模型、搜索升级和跨平台集成，显著提升AI工具的性能与应用范围。

AI项目与工具 2025年06月12日 61 点赞 0 评论 517 浏览

Meta Motivo

Meta Motivo是一款由Meta公司研发的人工智能模型，专为提高元宇宙中虚拟人形智能体的真实性和自然性而设计。通过无监督强化学习算法，Meta Motivo实现了对全身动作的有效控制，支持零样本学习、多任务泛化以及行为模仿等功能。其核心优势在于将状态、动作和奖励统一映射至潜在空间，显著增强了元宇宙体验的真实感。此外，该模型还适用于机器人控制、虚拟助手、游戏动画等多个应用场景。

AI项目与工具 2025年06月12日 22 点赞 0 评论 727 浏览

O1

O1-CODER是一款由北京交通大学研究团队开发的开源编码工具，专精于编程任务。它通过结合强化学习和蒙特卡洛树搜索技术，实现了从伪代码到完整代码的生成，并通过测试用例生成器和过程奖励模型优化代码质量。该工具支持自动化代码生成、代码质量提升、教育辅助以及软件测试等多种应用场景。

AI项目与工具 2025年06月12日 98 点赞 0 评论 660 浏览

TPDM

TPDM是一种基于扩散模型的图像生成技术，通过引入时间预测模块（TPM）和强化学习优化策略，实现了对去噪步骤的自适应调整，从而在保证图像质量的同时提高了生成效率。该模型适用于多种应用场景，包括文本到图像生成、艺术创作辅助以及数字媒体内容生产等，广泛应用于广告、游戏设计、影视制作等领域。

AI项目与工具 2025年06月12日 15 点赞 0 评论 702 浏览

Optima

Optima是一款由清华大学研发的框架，旨在通过迭代生成、排名、选择和训练过程，优化基于大型语言模型的多智能体系统。它不仅提高了通信效率和任务完成质量，还支持大规模复杂任务处理，同时集成了强化学习与蒙特卡洛树搜索技术以生成优质训练数据。Optima适用于信息不对称问答、复杂推理任务、软件开发等多个领域，具有高扩展性和低计算成本的特点。

AI项目与工具 2025年06月12日 73 点赞 0 评论 808 浏览

TÜLU 3

TÜLU 3是艾伦人工智能研究所发布的开源指令遵循模型，提供8B、70B及未来的405B版本。它通过后训练技术显著提升了模型在数学、编程和推理等方面的表现，同时支持多种任务处理和创新的后训练方法，适用于自然语言处理、教育、编程开发及内容创作等多个领域。

AI项目与工具 2025年06月12日 88 点赞 0 评论 547 浏览

BALROG

BALROG是一款用于评估大型语言模型（LLMs）和视觉语言模型（VLMs）在游戏环境中推理能力的框架。它通过程序化生成的游戏环境，测试模型的规划、空间推理及探索能力，并提供细粒度的性能指标和公开排行榜，以促进AI技术的发展，适用于游戏AI开发、机器人技术、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 498 浏览

MARS

MARS是一款由字节跳动开发的优化框架，专注于提升大型模型训练效率。它融合了预条件梯度方法与方差减少技术，并通过缩放随机递归动量技术优化梯度估计。MARS支持多种Hessian近似方式，可生成基于AdamW、Lion和Shampoo的优化算法实例。该框架适用于深度神经网络、大规模语言模型、计算机视觉任务及强化学习等领域，能有效加速模型收敛并提高训练稳定性。

AI项目与工具 2025年06月12日 79 点赞 0 评论 644 浏览

Skywork o1

Skywork o1是一款具备中文逻辑推理能力的大规模预训练模型，其核心优势在于内嵌思考、规划和反思能力，显著提升了复杂任务的推理性能。该模型基于开源Llama架构，同时提供增强版以满足更高要求的应用场景。它适用于技术开发者、企业决策者、教育工作者、内容创作者及客户服务等多个领域，助力创新应用开发和高效决策支持。 ---

AI项目与工具 2025年06月12日 73 点赞 0 评论 472 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期