零样本 - 智狐AI导航

Concept Lancet

Concept Lancet（CoLan）是一种基于潜在空间稀疏分解的图像编辑框架，能够实现零样本、即插即用的精确概念替换、添加与移除。它通过构建视觉概念字典，结合扩散模型生成高质量图像，保持视觉一致性。适用于创意设计、影视制作、游戏开发等多个领域，提供高效的图像编辑解决方案。

AI项目与工具 2025年06月11日 28 点赞 0 评论 777 浏览

URM

URM是由阿里妈妈开发的通用推荐模型，结合大语言模型与电商领域知识，提升推荐效果。其采用多模态融合与Sequence-In-Set-Out生成方式，支持多场景、多目标、长尾及发现性推荐。具备高效率、零样本学习能力，适用于工业级推荐系统，已应用于阿里妈妈展示广告场景，优化用户体验与商家投放效果。

AI项目与工具 2025年06月11日 85 点赞 0 评论 776 浏览

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开发的基于大模型的搜索引擎框架，通过强化学习技术提升搜索能力，无需依赖真实搜索引擎。它能动态生成相关或噪声文档，显著降低训练成本（超80%），并支持多种模型和算法，适用于问答、内容创作、教育等多个场景。

AI项目与工具 2025年06月11日 90 点赞 0 评论 824 浏览

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架，通过引入SAGI和SALQ注意力控制策略及主体定位模块，提升图像生成质量与一致性。支持零样本图像生成，适用于主体特征保持、背景一致性维护等多种任务，广泛应用于数字内容创作、广告设计、艺术创作等领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 451 浏览

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型，支持零样本语音克隆和高质量语音合成，具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度，适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本，满足不同性能需求。

AI项目与工具 2025年06月11日 33 点赞 0 评论 465 浏览

DreamGen

DreamGen是英伟达推出的机器人学习技术，基于AI视频世界模型生成合成数据，使机器人能在梦境中学习新技能。它通过微调视频世界模型、生成虚拟数据、提取虚拟动作和训练下游策略四步流程，实现机器人在新环境中的行为和环境泛化。DreamGen无需大量真实数据，仅凭文本指令即可完成复杂任务，提升学习效率和泛化能力。其支持多种机器人系统和策略架构，适用于工业生产、家庭服务、医疗护理等多个领域。

AI项目与工具 2025年06月11日 35 点赞 0 评论 839 浏览

Chatterbox是Resemble AI推出的开源文本转语音（TTS）模型，基于0.5B规模的LLaMA架构，用超过50万小时精选音频训练。它支持零样本语音克隆，仅需5秒参考音频即可生成高度逼真的个性化语音，并具备情感夸张控制功能，可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力，延迟低至200毫秒以下，适用于交互式应用。此外，它采用安全水印技术防止滥用，适用于内容

AI项目与工具 2025年06月11日 55 点赞 0 评论 457 浏览

TrackVLA

TrackVLA是银河通用推出的端到端导航大模型，具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力。它能在复杂环境中自主导航、灵活避障，并根据自然语言指令识别和跟踪目标对象。无需提前建图，适用于多种场景，如陪伴服务、安防巡逻、物流配送等，为具身智能商业化提供支撑，推动机器人走向日常生活。

AI项目与工具 2025年06月11日 79 点赞 0 评论 772 浏览

YOLO

腾讯AI实验室开发的一个实时目标检测工具，它能够自动识别和定位图像中的各种对象

Ai开源项目 2025年06月05日 47 点赞 0 评论 498 浏览

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型，专攻零样本语音编辑和文本到语音（TTS）任务。它采用Transformer架构，通过token重排过程结合因果掩蔽和延迟叠加技术，实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色，适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

AI项目与工具 2024年01月01日 31 点赞 0 评论 656 浏览

零样本

首页

零样本

列表

默认

浏览次数

发布日期