零样本

ActAnywhere

一个强大的视频生成工具,它通过自动化的前景与背景融合技术,极大地简化了视频背景生成的过程。它的应用场景广泛,从电影制作到教育,都能提供高效、创新的解决方案。

Depth Anything

强大的单目深度估计工具,它通过利用大规模未标注数据和先进的数据增强技术,实现了在多种复杂环境下的准确深度预测。其多任务学习和语义辅助功能使其在多个领域都有广泛的应用潜力。

Promptriever

Promptriever是一款基于自然语言处理的新型检索模型,融合了大型语言模型提示技术与信息检索优势。它通过双编码器架构及指令训练集优化,实现了对复杂查询的高度适应性与鲁棒性,适用于搜索引擎优化、智能助手、企业内部搜索及学术研究等多个领域。

SeedEdit

SeedEdit是一款基于自然语言指令的通用图像编辑工具,能够实现修图、换装、风格转换等多种编辑功能。它在图像重建与生成之间找到最佳平衡,支持零样本学习和多轮编辑操作,确保高质量输出。SeedEdit适用于社交媒体、广告、电商、艺术创作等多个领域,提供从简单调整到复杂创意的全面解决方案。

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架,通过引入SAGI和SALQ注意力控制策略及主体定位模块,提升图像生成质量与一致性。支持零样本图像生成,适用于主体特征保持、背景一致性维护等多种任务,广泛应用于数字内容创作、广告设计、艺术创作等领域。

Diffusion Self

Diffusion Self-Distillation (DSD) 是一种基于预训练文本到图像扩散模型的零样本定制图像生成技术,通过自动生成数据集并微调模型,支持文本条件下的图像到图像转换任务。其核心在于利用生成图像网格与视觉语言模型筛选高质量配对数据集,实现无需人工干预的身份保持定制化图像生成。该技术广泛应用于艺术创作、游戏开发、影视制作、广告营销及个性化商品等领域。

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型,支持零样本语音克隆和高质量语音合成,具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度,适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本,满足不同性能需求。

Chatterbox

Chatterbox是Resemble AI推出的开源文本转语音(TTS)模型,基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练。它支持零样本语音克隆,仅需5秒参考音频即可生成高度逼真的个性化语音,并具备情感夸张控制功能,可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用于交互式应用。此外,它采用安全水印技术防止滥用,适用于内容

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型,能够整合文本、音频、视觉、温度和运动数据等多种模态的信息,并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐,支持跨模态检索和零样本学习。它在增强现实(AR)、虚拟现实(VR)、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

Spark

Spark-TTS是一款基于大型语言模型的高效文本转语音工具,支持中英文双语及跨语言合成。它无需额外生成模型,通过LLM预测编码直接生成音频,实现零样本语音克隆。用户可自定义语音参数,如音色、语速等,适用于语音助手、多语言内容创作、智能客服及虚拟角色配音等多种场景。