端到端

Maestro

Maestro是一款高效的端到端自动化测试框架,支持移动和Web应用的全面测试。具备内置容错机制和自动等待功能,提升测试稳定性。采用声明式YAML语法,支持快速迭代与跨平台兼容,适用于多设备和浏览器环境。适合开发团队在CI/CD流程中高效进行UI测试。

StableAnimator

StableAnimator是一款由复旦大学、微软亚洲研究院、虎牙公司及卡内基梅隆大学联合开发的高质量身份保持视频生成框架。它能够根据参考图像和姿态序列,直接生成高保真度、身份一致的视频内容,无需后处理工具。框架集成了图像与面部嵌入计算、全局内容感知面部编码器、分布感知ID适配器以及Hamilton-Jacobi-Bellman方程优化技术,确保生成视频的流畅性和真实性。StableAnimato

EMMA

EMMA是一款基于Gemini模型的端到端自动驾驶多模态模型,可直接从原始相机传感器数据生成驾驶轨迹并执行多种任务,如3D对象检测、道路图元素识别及场景理解。该模型利用自然语言处理技术实现跨任务协作,并展现出强大的泛化能力,但在某些方面仍需改进。

心辰Lingo语音大模型

实现了从语音输入到语音输出的全程无缝对接,心辰Lingo能够直接理解语音内容,捕捉语气、节奏和情绪,并以同样丰富的语音形式进行回复。

The Language of Motion

The Language of Motion是一款由斯坦福大学李飞飞团队开发的多模态语言模型,能够处理文本、语音和动作数据,生成对应的输出模态。该模型在共同语音手势生成任务上表现出色,且支持情感预测等创新任务。它采用编码器-解码器架构,并通过端到端训练实现跨模态信息对齐。The Language of Motion广泛应用于游戏开发、电影制作、虚拟现实、增强现实及社交机器人等领域,推动了虚拟角色自

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台,集成了指令优化的多模态大型语言模型(MLLM)及一系列定制化医疗工具,支持多种医学成像模式(如MRI、CT、X射线等),可高效处理视觉问答、分类、定位、分割、医学报告生成(MRG)及检索增强生成(RAG)等任务,显著提升了医疗数据处理效率与准确性。

运小沓Cuber

运小沓Cuber作为全球供应链超自动化平台,通过其创新的技术和解决方案,帮助企业实现数字化转型,提升运营效率,降低成本,并在竞争激烈的市场中保持领先。

Nvidia·GET3D

我们通过两个潜在代码生成 3D SDF 和纹理场。我们利用 DMTet 从 SDF 中提取 3D 表面网格,并查询表面点处的纹理场以获取颜色。我们使用在 2D 图像上定义的对抗损失进行训练。

3D

3D-Speaker是一个多模态开源项目,专注于通过结合声学、语义和视觉信息,实现高精度的说话人识别和语种识别。其主要功能包括说话人日志、说话人识别、语种识别、多模态识别以及重叠说话人检测。项目提供了工业级模型、训练与推理代码,以及多样化数据集,并支持复杂环境下的语音处理任务。应用场景涵盖会议记录、法庭记录、广播制作、电话客服和安全监控等领域。

Momentic

Momentic是一款AI驱动的测试平台,专注于帮助开发者高效创建和管理端到端测试。其核心功能包括低代码交互式编辑器、自动适应UI变化、零代码复杂断言生成以及多环境测试执行能力。Momentic能够显著简化测试流程,加速软件发布周期,并广泛应用于端到端测试、回归测试、UI测试及性能测试等场景。