强化学习

DIAMOND

DIAMOND是一款基于扩散模型的强化学习代理,专注于模拟复杂环境以支持代理的学习与决策。它在Atari游戏和3D环境中表现出色,能够捕捉丰富的视觉信息。通过连续潜在变量和优化的去噪步骤,DIAMOND提升了模型的稳定性和效率。其应用场景涵盖游戏AI开发、机器人技术、虚拟现实、教育培训及科学研究等领域。

SwiftAgent 2.0

SwiftAgent 2.0 是一款依托于大模型与 AI Agent 技术的企业级数据分析工具,旨在帮助企业实现从数据到决策的智能化升级。其主要特点包括统一语义层构建、多源数据集成、实时交互体验以及持续学习优化机制,广泛应用于业务决策支持、销售预测、客户洞察及财务规划等多个领域。

AutoGLM

AutoGLM-Web是一款基于大型语言模型开发的AI浏览器助手,具备网页浏览、信息检索、内容总结及邮件自动回复等功能。它通过自进化在线课程强化学习框架不断优化性能,支持多场景应用,适用于办公自动化、学术研究、电商运营及客户服务等领域。

LongReward

LongReward是一种由清华大学、中国科学院及智谱AI联合开发的AI工具,专注于通过多维度评估(有用性、逻辑性、忠实性和完整性)来优化长文本大型语言模型的表现。它利用现成的语言模型提供奖励信号,并结合强化学习算法改善模型性能,特别擅长处理复杂长文本任务,如文档理解、摘要生成及特定领域的数据分析,如法律、金融和医疗。

WebRL

WebRL是一种由清华大学与智谱AI共同研发的自我进化的强化学习框架,专注于通过开放大型语言模型优化网络代理性能。该框架采用动态任务生成与结果监督奖励机制,并结合自适应强化学习策略,解决了任务稀缺和反馈稀疏等问题。其显著提升了开源模型在WebArena-Lite基准测试中的表现,具备自我进化、持续改进的特点。

k0

k0-math是一款基于强化学习和思维链推理技术的新一代数学推理模型,由月之暗面推出。它在多个数学基准测试中表现出色,特别是在中考、高考、考研及竞赛级数学题库中的成绩超越了OpenAI的o1-mini和o1-preview模型。k0-math具备深入思考、规划解题思路以及自我反思优化的能力,适用于教育辅导、在线教育平台、竞赛培训、学术研究及自动化测试与评分等多个场景。

Skywork o1

Skywork o1是一款具备中文逻辑推理能力的大规模预训练模型,其核心优势在于内嵌思考、规划和反思能力,显著提升了复杂任务的推理性能。该模型基于开源Llama架构,同时提供增强版以满足更高要求的应用场景。它适用于技术开发者、企业决策者、教育工作者、内容创作者及客户服务等多个领域,助力创新应用开发和高效决策支持。 ---

MARS

MARS是一款由字节跳动开发的优化框架,专注于提升大型模型训练效率。它融合了预条件梯度方法与方差减少技术,并通过缩放随机递归动量技术优化梯度估计。MARS支持多种Hessian近似方式,可生成基于AdamW、Lion和Shampoo的优化算法实例。该框架适用于深度神经网络、大规模语言模型、计算机视觉任务及强化学习等领域,能有效加速模型收敛并提高训练稳定性。

BALROG

BALROG是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏环境中推理能力的框架。它通过程序化生成的游戏环境,测试模型的规划、空间推理及探索能力,并提供细粒度的性能指标和公开排行榜,以促进AI技术的发展,适用于游戏AI开发、机器人技术、虚拟现实等多个领域。

TÜLU 3

TÜLU 3是艾伦人工智能研究所发布的开源指令遵循模型,提供8B、70B及未来的405B版本。它通过后训练技术显著提升了模型在数学、编程和推理等方面的表现,同时支持多种任务处理和创新的后训练方法,适用于自然语言处理、教育、编程开发及内容创作等多个领域。