零样本学习

DynVFX

DynVFX是一种基于文本指令的视频增强技术，能够将动态内容自然地融入真实视频中。它结合了文本到视频扩散模型与视觉语言模型，通过锚点扩展注意力机制和迭代细化方法，实现新内容与原始视频的像素级对齐和融合。无需复杂输入或模型微调，即可完成高质量的视频编辑，适用于影视特效、内容创作及教育等多个领域。

AI项目与工具 2025年06月12日 85 点赞 0 评论 725 浏览

LLMDet

LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器，能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息，实现高精度的零样本检测，并支持图像描述生成与多模态任务优化，适用于多种实际应用场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 336 浏览

CustomVideoX

CustomVideoX是一种基于视频扩散变换器的个性化视频生成框架，能够根据参考图像和文本描述生成高质量视频。其核心技术包括3D参考注意力机制、时间感知注意力偏差（TAB）和实体区域感知增强（ERAE），有效提升视频的时间连贯性和语义一致性。支持多种应用场景，如艺术设计、广告营销、影视制作等，具备高效、精准和可扩展的特点。

AI项目与工具 2025年06月12日 98 点赞 0 评论 396 浏览

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统，采用轻量级扩散模型，支持中英文及混合语音合成，具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模，可快速生成高质量语音，适用于教育、内容制作、语音交互等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 495 浏览

Lipsync

Lipsync-2 是 Sync Labs 推出的全球首个零样本嘴型同步模型，无需预训练即可快速生成符合说话者风格的嘴型动作。支持多语言、个性化表达和温度参数调节，具备高精度、高真实感和高效处理能力，广泛应用于视频翻译、动画制作、多语言教育及 AI 内容生成等领域。

AI项目与工具 2025年06月12日 85 点赞 0 评论 464 浏览

Hummingbird

Hummingbird-0 是一款基于深度学习的 AI 口型同步工具，支持零样本学习，无需额外训练即可快速生成高质量口型同步视频。它兼容多种格式，支持最长 5 分钟视频处理，1 分钟内生成 10 秒视频，适用于影视制作、广告、本地化翻译及 AI 内容创作等场景。通过多模态融合技术，实现音频与视频的精准匹配，提升内容表现力。

AI项目与工具 2025年06月11日 42 点赞 0 评论 573 浏览

Concept Lancet

Concept Lancet（CoLan）是一种基于潜在空间稀疏分解的图像编辑框架，能够实现零样本、即插即用的精确概念替换、添加与移除。它通过构建视觉概念字典，结合扩散模型生成高质量图像，保持视觉一致性。适用于创意设计、影视制作、游戏开发等多个领域，提供高效的图像编辑解决方案。

AI项目与工具 2025年06月11日 28 点赞 0 评论 637 浏览

URM

URM是由阿里妈妈开发的通用推荐模型，结合大语言模型与电商领域知识，提升推荐效果。其采用多模态融合与Sequence-In-Set-Out生成方式，支持多场景、多目标、长尾及发现性推荐。具备高效率、零样本学习能力，适用于工业级推荐系统，已应用于阿里妈妈展示广告场景，优化用户体验与商家投放效果。

AI项目与工具 2025年06月11日 85 点赞 0 评论 637 浏览

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架，通过引入SAGI和SALQ注意力控制策略及主体定位模块，提升图像生成质量与一致性。支持零样本图像生成，适用于主体特征保持、背景一致性维护等多种任务，广泛应用于数字内容创作、广告设计、艺术创作等领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 310 浏览

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型，专攻零样本语音编辑和文本到语音（TTS）任务。它采用Transformer架构，通过token重排过程结合因果掩蔽和延迟叠加技术，实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色，适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

AI项目与工具 2024年01月01日 31 点赞 0 评论 508 浏览

零样本学习

首页

零样本学习

列表

默认

浏览次数

发布日期