增强

AgiBot Digital World

AgiBot Digital World 是一款基于 NVIDIA Isaac-Sim 的高保真机器人仿真框架,支持多模态大模型驱动的任务与场景自动生成,具备真实感强的视觉与物理模拟能力。其提供多样化专家轨迹生成、域随机化与数据增强功能,助力机器人技能训练与算法优化,并开源了包含多种场景和技能的数据集,适用于工业自动化、服务机器人开发及人工智能研究等领域。

TrackGo

TrackGo是一种先进的AI视频生成技术,利用自由形状的遮罩和箭头提供精确的运动控制。其核心技术TrackAdapter无缝集成到预训练的视频生成模型中,通过调整时间自注意力层来激活与运动相关的区域。TrackGo在视频质量、图像质量和运动忠实度方面表现出色,适用于影视制作、动画制作、虚拟现实(VR)、增强现实(AR)和游戏开发等多个领域。

VAS视频加字幕

VAS视频加字幕,一键生成视频字幕,使用AI提取音频对话内容后翻译、生成字幕文件。

WeShop商拍

WeShop是国内首款AI商拍工具,专注于电商产品图片的智能生成。它旨在帮助品牌商家解决商品图拍摄成本高、模特贵等痛点,同时提供高效且成本效益高的解决方案。

MVDrag3D

MVDrag3D是一种先进的3D编辑框架,具备多视图一致性编辑、3D高斯重建、视图对齐及视觉质量增强等功能。它能够处理复杂的拓扑变化并支持多样化的3D表示,适用于游戏开发、虚拟现实、增强现实以及计算机辅助设计等领域,展现了强大的生成性和灵活性。

KAG

KAG是由蚂蚁集团开发的专业领域知识服务框架,通过知识增强技术提升大型语言模型在特定领域的问答性能。它结合知识图谱与向量检索,优化知识表示与推理过程,支持逻辑推理、多跳问答等功能,提升准确性和效率。适用于金融风控、医疗健康、智能客服、知识管理等多个场景,具备强大的语义理解和跨领域应用能力。

Perplexity

Perplexity AI 是一款对话式AI搜索引擎,通过自然语言处理技术,能够从多种来源收集信息并提供准确答案。它支持用户通过聊天方式进行提问,确保信息来源可靠,并适用于多种职业背景的用户。与传统搜索引擎相比,Perplexity AI 提供了简洁无广告的体验和更高效的搜索结果。

TIGER

TIGER是由清华大学研发的轻量级语音分离模型,采用时频交叉建模策略与多尺度注意力机制,有效提升语音分离性能,同时显著降低计算和参数开销。模型通过频带切分优化资源利用,适应复杂声学环境,广泛应用于会议记录、视频剪辑、电影音频处理及智能语音助手等领域。

TITAN

TITAN是一款由哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示并生成病理报告。它在多种临床任务中表现出色,包括线性探测、少样本和零样本分类、罕见癌症检索、跨模态检索和病理报告生成,尤其适用于资源有限的临床场景。