零样本 - 智狐AI导航

ActAnywhere

一个强大的视频生成工具，它通过自动化的前景与背景融合技术，极大地简化了视频背景生成的过程。它的应用场景广泛，从电影制作到教育，都能提供高效、创新的解决方案。

Ai平台模型 1970年01月01日 0 点赞 0 评论 272 浏览

Depth Anything

强大的单目深度估计工具，它通过利用大规模未标注数据和先进的数据增强技术，实现了在多种复杂环境下的准确深度预测。其多任务学习和语义辅助功能使其在多个领域都有广泛的应用潜力。

Ai平台模型 1970年01月01日 0 点赞 0 评论 289 浏览

Diffusion Self

Diffusion Self-Distillation (DSD) 是一种基于预训练文本到图像扩散模型的零样本定制图像生成技术，通过自动生成数据集并微调模型，支持文本条件下的图像到图像转换任务。其核心在于利用生成图像网格与视觉语言模型筛选高质量配对数据集，实现无需人工干预的身份保持定制化图像生成。该技术广泛应用于艺术创作、游戏开发、影视制作、广告营销及个性化商品等领域。

AI项目与工具 2025年06月12日 68 点赞 0 评论 423 浏览

SeedEdit

SeedEdit是一款基于自然语言指令的通用图像编辑工具，能够实现修图、换装、风格转换等多种编辑功能。它在图像重建与生成之间找到最佳平衡，支持零样本学习和多轮编辑操作，确保高质量输出。SeedEdit适用于社交媒体、广告、电商、艺术创作等多个领域，提供从简单调整到复杂创意的全面解决方案。

AI项目与工具 2025年06月12日 27 点赞 0 评论 434 浏览

Promptriever

Promptriever是一款基于自然语言处理的新型检索模型，融合了大型语言模型提示技术与信息检索优势。它通过双编码器架构及指令训练集优化，实现了对复杂查询的高度适应性与鲁棒性，适用于搜索引擎优化、智能助手、企业内部搜索及学术研究等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 450 浏览

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架，通过引入SAGI和SALQ注意力控制策略及主体定位模块，提升图像生成质量与一致性。支持零样本图像生成，适用于主体特征保持、背景一致性维护等多种任务，广泛应用于数字内容创作、广告设计、艺术创作等领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 451 浏览

Chatterbox是Resemble AI推出的开源文本转语音（TTS）模型，基于0.5B规模的LLaMA架构，用超过50万小时精选音频训练。它支持零样本语音克隆，仅需5秒参考音频即可生成高度逼真的个性化语音，并具备情感夸张控制功能，可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力，延迟低至200毫秒以下，适用于交互式应用。此外，它采用安全水印技术防止滥用，适用于内容

AI项目与工具 2025年06月11日 55 点赞 0 评论 457 浏览

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型，能够整合文本、音频、视觉、温度和运动数据等多种模态的信息，并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐，支持跨模态检索和零样本学习。它在增强现实（AR）、虚拟现实（VR）、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

AI项目与工具 2025年06月12日 16 点赞 0 评论 465 浏览

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型，支持零样本语音克隆和高质量语音合成，具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度，适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本，满足不同性能需求。

AI项目与工具 2025年06月11日 33 点赞 0 评论 465 浏览

Zerox

Zerox是一款基于GPT-4o-mini模型的开源OCR工具，支持多种文件格式，具备零样本识别能力，可高效处理扫描文档和复杂布局内容。其输出为Markdown格式，便于编辑与使用，同时提供API接口，适用于企业文档管理、学术研究、法律金融等多个场景，显著提升文档处理效率和准确性。

AI项目与工具 2025年06月12日 20 点赞 0 评论 478 浏览

零样本

首页

零样本

列表

默认

浏览次数

发布日期