零样本 - 智狐AI导航

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型，专攻零样本语音编辑和文本到语音（TTS）任务。它采用Transformer架构，通过token重排过程结合因果掩蔽和延迟叠加技术，实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色，适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

AI项目与工具 2024年01月01日 31 点赞 0 评论 656 浏览

Freestyler

Freestyler是一款由多机构合作开发的AI工具，专注于说唱音乐的自动化生成。它通过结合语言模型、条件流匹配技术和神经声码器，实现了从歌词和伴奏到高质量说唱音频的全流程转化。Freestyler还推出了RapBank数据集，并支持零样本音色控制，广泛应用于音乐创作、现场表演、游戏音效及教育等领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 656 浏览

MarDini

MarDini是一款融合掩码自回归（MAR）和扩散模型（DM）的先进视频生成工具，支持视频插值、图像到视频生成、视频扩展等多种任务。它通过优化计算资源分配，提高了视频生成的效率与灵活性，并具备从无标签数据中进行端到端训练的能力，展现出强大的可扩展性与效率。

AI项目与工具 2025年06月12日 44 点赞 0 评论 660 浏览

Light

Light-A-Video 是一种无需训练的视频重照明技术，由多所高校和研究机构联合开发。它通过 CLA 和 PLF 模块实现高质量、时间一致的光照调整，支持前景与背景分离处理，并具备零样本生成能力。适用于影视、游戏、视频创作等多种场景，兼容多种视频生成模型，提升视频表现力与创作效率。

AI项目与工具 2025年06月12日 91 点赞 0 评论 684 浏览

Voicebox

Voicebox 是由 Meta AI 研究团队开发的一款领先的语音生成模型。Voicebox 能够在六种语言中合成语音，消除瞬态噪声，编辑内容，在语言之间转移音频风格，并生成多样的语音样本。此...

创作工具 1970年01月01日 0 点赞 0 评论 687 浏览

CausVid是一种由Adobe和MIT联合开发的实时视频生成技术，基于自回归生成模型和蒸馏预训练技术，实现了低延迟、高效率的视频创作。其核心功能包括即时视频生成、快速流式生成、零样本图像到视频转换、视频风格迁移、长视频生成以及交互式剧情生成等。CausVid通过分布匹配蒸馏、非对称蒸馏策略和滑动窗口机制等技术手段，优化了视频生成的质量与稳定性，适用于内容创作、新闻报道、教育培训、游戏开发及广告营

AI项目与工具 2025年06月12日 80 点赞 0 评论 687 浏览

SAM2Point

SAM2Point是一种基于SAM2的3D分割技术，无需额外训练或2D-3D投影，即可直接对任意3D数据进行零样本分割。该工具通过将3D数据体素化，并将其模拟为多方向视频流，实现精确的空间分割。SAM2Point支持多种3D提示类型，如点、框和掩码，展现了在多种场景下的泛化能力，包括3D物体、室内室外环境以及LiDAR数据，为未来的3D可提示分割研究提供了新起点。

AI项目与工具 2025年06月12日 75 点赞 0 评论 705 浏览

ShowUI

ShowUI是一款由新加坡国立大学Show Lab与微软合作开发的视觉-语言-行动模型，旨在提升图形用户界面（GUI）助手的工作效率。该模型通过UI引导的视觉令牌选择、交错视觉-语言-行动流以及高质量数据集的运用，实现了高效的零样本截图定位和GUI自动化功能，广泛应用于网页自动化、移动应用测试、桌面软件自动化及游戏自动化等领域。

AI项目与工具 2025年06月12日 27 点赞 0 评论 711 浏览

Meta Motivo

Meta Motivo是一款由Meta公司研发的人工智能模型，专为提高元宇宙中虚拟人形智能体的真实性和自然性而设计。通过无监督强化学习算法，Meta Motivo实现了对全身动作的有效控制，支持零样本学习、多任务泛化以及行为模仿等功能。其核心优势在于将状态、动作和奖励统一映射至潜在空间，显著增强了元宇宙体验的真实感。此外，该模型还适用于机器人控制、虚拟助手、游戏动画等多个应用场景。

AI项目与工具 2025年06月12日 22 点赞 0 评论 727 浏览

Hummingbird

Hummingbird-0 是一款基于深度学习的 AI 口型同步工具，支持零样本学习，无需额外训练即可快速生成高质量口型同步视频。它兼容多种格式，支持最长 5 分钟视频处理，1 分钟内生成 10 秒视频，适用于影视制作、广告、本地化翻译及 AI 内容创作等场景。通过多模态融合技术，实现音频与视频的精准匹配，提升内容表现力。

AI项目与工具 2025年06月11日 42 点赞 0 评论 732 浏览

零样本

首页

零样本

列表

默认

浏览次数

发布日期