零样本 - 智狐AI导航

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 620 浏览

OpenCity

OpenCity是一个由香港大学联合华南理工大学和百度共同研发的交通预测模型。该模型采用了Transformer架构和图神经网络，通过大规模预训练学习交通数据中的时空依赖关系，具有卓越的零样本预测能力和快速情境适应能力。OpenCity能够有效处理不同空间区域和时间的城市交通模式，并具备良好的可扩展性。其应用场景包括交通流量预测、交通拥堵分析、公共交通优化以及智能交通信号控制等。

AI项目与工具 2025年06月12日 32 点赞 0 评论 617 浏览

StochSync

StochSync是一种基于扩散同步（DS）和分数蒸馏采样（SDS）的图像生成技术，适用于360°全景图和3D纹理生成。它通过引入最大随机性与多步去噪方法，兼顾图像细节与连贯性，无需额外训练即可生成高质量图像。支持高分辨率输出，适用于复杂几何纹理化任务。

AI项目与工具 2025年06月12日 65 点赞 0 评论 616 浏览

Sa2VA

Sa2VA是由字节跳动联合多所高校开发的多模态大语言模型，结合SAM2与LLaVA技术，实现对图像和视频的密集、细粒度理解。它支持指代分割、视觉对话、视觉提示理解等多种任务，具备零样本推理能力和复杂场景下的高精度分割效果。适用于视频编辑、智能监控、机器人交互、内容创作及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 615 浏览

Agent Q是一种自监督代理推理和搜索框架，结合了引导式蒙特卡洛树搜索（MCTS）、AI自我批评及直接偏好优化（DPO）等技术。该框架通过迭代微调和基于人类反馈的强化学习进行自我改进，在网页导航和多步任务执行中表现优异。Agent Q的主要功能包括引导式搜索、自我批评、迭代微调、多步推理任务和零样本学习。它在电子商务、在线预订服务、软件开发、客户服务、数据分析和个性化推荐等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 77 点赞 0 评论 612 浏览

ID

ID-Animator是一款由腾讯光子工作室、中科大和中科院合肥物质科学研究院联合开发的零样本人类视频生成技术。它能够根据单张参考面部图像生成个性化视频，并根据文本提示调整视频内容。ID-Animator通过结合预训练的文本到视频扩散模型和轻量级面部适配器，实现高效的身份保真视频生成。其主要功能包括视频角色修改、年龄和性别调整、身份混合以及与ControlNet等现有条件模块的兼容性。

AI项目与工具 2024年01月01日 67 点赞 0 评论 606 浏览

Lipsync

Lipsync-2 是 Sync Labs 推出的全球首个零样本嘴型同步模型，无需预训练即可快速生成符合说话者风格的嘴型动作。支持多语言、个性化表达和温度参数调节，具备高精度、高真实感和高效处理能力，广泛应用于视频翻译、动画制作、多语言教育及 AI 内容生成等领域。

AI项目与工具 2025年06月12日 85 点赞 0 评论 602 浏览

Seed Music

一个强大的音乐生成工具，它通过先进的技术手段，如自回归模型和扩散模型，为用户提供了从音乐创作到编辑再到声音转换的全方位服务。这套系统不仅能够生成高质量的音乐作品，还能...

创作工具 1970年01月01日 0 点赞 0 评论 596 浏览

VideoGrain

VideoGrain是由悉尼科技大学与浙江大学联合研发的零样本多粒度视频编辑框架，支持类别级、实例级和部件级的精细化视频修改。它通过调节时空交叉注意力和自注意力机制，提升文本提示对目标区域的控制能力，确保时间一致性与特征分离，显著优于现有T2I和T2V方法。该工具无需额外参数调整，具备高效计算性能，适用于影视制作、广告营销、内容创作等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 555 浏览

Takin AudioLLM

Takin AudioLLM是一套由喜马拉雅Everest团队研发的语音生成模型，包含文本转语音（Takin TTS）、音色转换（Takin VC）及声音风格变换（Takin Morphing）。它采用最新大型语言模型技术，可生成接近真人的高质量语音，并支持个性化定制与零样本学习。该工具广泛应用于有声书制作、虚拟助手、电影配音等领域，具有音色精准、风格多样等特点。

AI项目与工具 2025年06月12日 63 点赞 0 评论 545 浏览

零样本

首页

零样本

列表

默认

浏览次数

发布日期