零样本 - 智狐AI导航

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架，通过引入SAGI和SALQ注意力控制策略及主体定位模块，提升图像生成质量与一致性。支持零样本图像生成，适用于主体特征保持、背景一致性维护等多种任务，广泛应用于数字内容创作、广告设计、艺术创作等领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 451 浏览

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型，支持零样本语音克隆和高质量语音合成，具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度，适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本，满足不同性能需求。

AI项目与工具 2025年06月11日 33 点赞 0 评论 465 浏览

DreamGen

DreamGen是英伟达推出的机器人学习技术，基于AI视频世界模型生成合成数据，使机器人能在梦境中学习新技能。它通过微调视频世界模型、生成虚拟数据、提取虚拟动作和训练下游策略四步流程，实现机器人在新环境中的行为和环境泛化。DreamGen无需大量真实数据，仅凭文本指令即可完成复杂任务，提升学习效率和泛化能力。其支持多种机器人系统和策略架构，适用于工业生产、家庭服务、医疗护理等多个领域。

AI项目与工具 2025年06月11日 35 点赞 0 评论 839 浏览

Chatterbox是Resemble AI推出的开源文本转语音（TTS）模型，基于0.5B规模的LLaMA架构，用超过50万小时精选音频训练。它支持零样本语音克隆，仅需5秒参考音频即可生成高度逼真的个性化语音，并具备情感夸张控制功能，可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力，延迟低至200毫秒以下，适用于交互式应用。此外，它采用安全水印技术防止滥用，适用于内容

AI项目与工具 2025年06月11日 55 点赞 0 评论 457 浏览

TrackVLA

TrackVLA是银河通用推出的端到端导航大模型，具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力。它能在复杂环境中自主导航、灵活避障，并根据自然语言指令识别和跟踪目标对象。无需提前建图，适用于多种场景，如陪伴服务、安防巡逻、物流配送等，为具身智能商业化提供支撑，推动机器人走向日常生活。

AI项目与工具 2025年06月11日 79 点赞 0 评论 772 浏览

YOLO

腾讯AI实验室开发的一个实时目标检测工具，它能够自动识别和定位图像中的各种对象

Ai开源项目 2025年06月05日 47 点赞 0 评论 497 浏览

零样本

首页

零样本

列表

默认

浏览次数

发布日期

MCA

Speech

DreamGen

Chatterbox

TrackVLA

YOLO

零样本 首页 零样本

列表 默认 浏览次数 发布日期

MCA

Speech

DreamGen

Chatterbox

TrackVLA

YOLO

零样本

首页

零样本

列表

默认

浏览次数

发布日期