端到端 - 智狐AI导航

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面（GUI）的智能代理模型，具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则，即可实现端到端的GUI任务自动化，适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术，支持高效的界面交互与精准的视觉定位。

AI项目与工具 2025年06月11日 31 点赞 0 评论 732 浏览

Maestro

Maestro是一款高效的端到端自动化测试框架，支持移动和Web应用的全面测试。具备内置容错机制和自动等待功能，提升测试稳定性。采用声明式YAML语法，支持快速迭代与跨平台兼容，适用于多设备和浏览器环境。适合开发团队在CI/CD流程中高效进行UI测试。

AI项目与工具 2025年06月12日 40 点赞 0 评论 732 浏览

StableAnimator是一款由复旦大学、微软亚洲研究院、虎牙公司及卡内基梅隆大学联合开发的高质量身份保持视频生成框架。它能够根据参考图像和姿态序列，直接生成高保真度、身份一致的视频内容，无需后处理工具。框架集成了图像与面部嵌入计算、全局内容感知面部编码器、分布感知ID适配器以及Hamilton-Jacobi-Bellman方程优化技术，确保生成视频的流畅性和真实性。StableAnimato

AI项目与工具 2025年06月12日 14 点赞 0 评论 706 浏览

EMMA

EMMA是一款基于Gemini模型的端到端自动驾驶多模态模型，可直接从原始相机传感器数据生成驾驶轨迹并执行多种任务，如3D对象检测、道路图元素识别及场景理解。该模型利用自然语言处理技术实现跨任务协作，并展现出强大的泛化能力，但在某些方面仍需改进。

AI项目与工具 2025年06月12日 38 点赞 0 评论 682 浏览

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台，集成了指令优化的多模态大型语言模型（MLLM）及一系列定制化医疗工具，支持多种医学成像模式（如MRI、CT、X射线等），可高效处理视觉问答、分类、定位、分割、医学报告生成（MRG）及检索增强生成（RAG）等任务，显著提升了医疗数据处理效率与准确性。

AI项目与工具 2025年06月12日 45 点赞 0 评论 632 浏览

3D

3D-Speaker是一个多模态开源项目，专注于通过结合声学、语义和视觉信息，实现高精度的说话人识别和语种识别。其主要功能包括说话人日志、说话人识别、语种识别、多模态识别以及重叠说话人检测。项目提供了工业级模型、训练与推理代码，以及多样化数据集，并支持复杂环境下的语音处理任务。应用场景涵盖会议记录、法庭记录、广播制作、电话客服和安全监控等领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 622 浏览

The Language of Motion

The Language of Motion是一款由斯坦福大学李飞飞团队开发的多模态语言模型，能够处理文本、语音和动作数据，生成对应的输出模态。该模型在共同语音手势生成任务上表现出色，且支持情感预测等创新任务。它采用编码器-解码器架构，并通过端到端训练实现跨模态信息对齐。The Language of Motion广泛应用于游戏开发、电影制作、虚拟现实、增强现实及社交机器人等领域，推动了虚拟角色自

AI项目与工具 2025年06月12日 100 点赞 0 评论 622 浏览

Pyramid

Pyramid-Flow是一款基于文本生成高清视频的AI工具，利用创新的金字塔流匹配算法，支持从低分辨率到高分辨率的逐步生成过程，可生成长达10秒、分辨率达1280×768的视频内容。该模型具备端到端优化能力，支持连续帧生成，确保视频内容的连贯性和高质量。

AI项目与工具 2025年06月12日 93 点赞 0 评论 596 浏览

Nvidia·GET3D

我们通过两个潜在代码生成 3D SDF 和纹理场。我们利用 DMTet 从 SDF 中提取 3D 表面网格，并查询表面点处的纹理场以获取颜色。我们使用在 2D 图像上定义的对抗损失进行训练。

创作工具 2026年07月29日 0 点赞 0 评论 584 浏览

Momentic

Momentic是一款AI驱动的测试平台，专注于帮助开发者高效创建和管理端到端测试。其核心功能包括低代码交互式编辑器、自动适应UI变化、零代码复杂断言生成以及多环境测试执行能力。Momentic能够显著简化测试流程，加速软件发布周期，并广泛应用于端到端测试、回归测试、UI测试及性能测试等场景。

AI项目与工具 2025年06月12日 51 点赞 0 评论 573 浏览

端到端

首页

端到端

列表

默认

浏览次数

发布日期