数据生成

LLM Engineer Toolkit

一个精心整理的LLM工具库,它将120多个与LLM相关的库按照功能和用途进行了细致分类,涵盖了从训练微调、应用开发、推理服务到安全评估等 LLM 开发全流程所需的工具。

DAM

DAM-3B是英伟达开发的多模态大语言模型,专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域,生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络,有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理,适用于动态场景。模型基于Transformer架构,支持多模态输入,广泛应用于内容创作、智能交互及无障碍工具等领域。

Infinite Mobility

Infinite Mobility是由上海AI Lab开发的交互式物体生成模型,基于程序化技术快速生成高质量、多样化的可交互物体,支持22类常见物体,单次生成仅需1秒,成本低至0.01元。其生成的物体广泛应用于机器人仿真、医疗设备开发、家庭服务机器人等领域,提升虚拟训练的真实性和效率。

HoloPart

HoloPart 是一种基于扩散模型的 3D 分割工具,能准确识别并补全被遮挡的语义部件,支持几何与材质编辑等任务。其两阶段方法结合局部与全局注意力机制,提升分割精度与一致性。适用于动画制作、几何优化及数据生成等领域,已在多个数据集上取得优异性能。

Kiln AI

Kiln AI 是一款开源 AI 开发工具,支持多平台使用,提供零代码微调、合成数据生成及团队协作功能。内置交互式工具,兼容多种模型和 AI 提供商,支持 Git 版本控制与自动部署,适用于智能客服、医疗、教育、金融等场景,注重数据隐私与安全性。

OmniManip

OmniManip是由北京大学与智元机器人联合实验室开发的通用机器人操作框架,结合视觉语言模型与三维操作技术,实现机器人在非结构化环境中的任务执行。其核心为以对象为中心的交互基元表示法,支持零样本泛化、跨平台部署及大规模仿真数据生成。通过双闭环系统设计与任务分解机制,提升操作精度与适应性,适用于日常操作、工业自动化及服务机器人等场景。

LLM2LLM

LLM2LLM是一种基于教师-学生架构的迭代数据增强方法,通过生成针对性的合成数据提升语言模型在低数据量场景下的性能。该技术通过识别并强化模型预测错误的数据点,实现精准优化,同时控制数据质量和规模。适用于医学、法律、教育等数据稀缺领域,具有良好的可扩展性和实用性。

Insight

Insight-V是一款由南洋理工大学、腾讯和清华大学联合研发的多模态大型语言模型,专为提升长链视觉推理能力而设计。该模型通过多智能体系统将任务分解为推理与总结两步,并采用两阶段训练流程优化性能。其渐进式数据生成和多粒度评估方法进一步提升了模型的推理精度,在多个视觉推理基准测试中表现出色。

XGrammar

XGrammar 是一款由陈天奇团队开发的开源工具,旨在为大型语言模型提供高效的结构化数据生成能力。它基于上下文无关语法(CFG),支持生成 JSON 和 SQL 等格式的复杂数据结构,具备字节级下推自动机优化、自适应 token 掩码缓存以及上下文扩展等功能,能够显著提升生成效率并减少延迟,适用于编程语言辅助、数据库操作、自然语言处理、Web 开发等多个领域。

MATRIX

MATRIX-Gen是一个基于多智能体模拟技术的系统,通过构建虚拟社会生成高质量训练指令数据,用于提升大型语言模型的表现。该工具支持多种应用场景,如软件开发、商业活动、医疗诊断、教育和客户服务,能够显著提高模型在不同领域的性能,并促进其自我进化。