零样本

MOFA

MOFA-Video是由腾讯AI实验室和东京大学研究人员开发的开源图像生成视频模型。该工具通过生成运动场适配器对图像进行动画处理,能够通过稀疏控制信号(如手动轨迹、面部关键点序列或音频)实现对视频生成过程中动作的精准控制。MOFA-Video支持零样本学习,能够将多种控制信号组合使用,生成复杂的动画效果,并能生成较长的视频片段。 ---

DeepFloyd

DeepFloyd IF是一个强大的文本到图像生成模型,能够生成高分辨率和逼真度的图像。它结合了先进的语言理解和图像生成技术,提供了多种功能,如超分辨率、风格迁移和零样本学习。

BALROG

BALROG是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏环境中推理能力的框架。它通过程序化生成的游戏环境,测试模型的规划、空间推理及探索能力,并提供细粒度的性能指标和公开排行榜,以促进AI技术的发展,适用于游戏AI开发、机器人技术、虚拟现实等多个领域。

YOLO

腾讯AI实验室开发的一个实时目标检测工具,它能够自动识别和定位图像中的各种对象

MDM

Matryoshka Diffusion Models (MDM) 是一种由苹果公司开发的新型扩散模型框架,通过嵌套UNet架构实现多分辨率联合去噪,支持从低分辨率到高分辨率的渐进式训练,显著提升高分辨率图像生成效率,适用于多种应用场景,如数字艺术创作、游戏开发、电影制作等,并具备出色的零样本泛化能力。

CustomVideoX

CustomVideoX是一种基于视频扩散变换器的个性化视频生成框架,能够根据参考图像和文本描述生成高质量视频。其核心技术包括3D参考注意力机制、时间感知注意力偏差(TAB)和实体区域感知增强(ERAE),有效提升视频的时间连贯性和语义一致性。支持多种应用场景,如艺术设计、广告营销、影视制作等,具备高效、精准和可扩展的特点。

PromptFix

PromptFix是一款基于扩散模型的开源AI图像修复工具,支持多种图像处理任务,如上色、物体移除、去雾、去模糊等。它通过20步去噪过程精确修复图像缺陷,同时保持图像结构完整性和泛化能力。PromptFix具备高频细节保护、辅助提示适配器、零样本学习能力和大规模数据集构建等特点,适用于个人照片编辑、专业摄影、数字艺术创作、媒体广告及电影制作等多个领域。

Agent Q

Agent Q是一种自监督代理推理和搜索框架,结合了引导式蒙特卡洛树搜索(MCTS)、AI自我批评及直接偏好优化(DPO)等技术。该框架通过迭代微调和基于人类反馈的强化学习进行自我改进,在网页导航和多步任务执行中表现优异。Agent Q的主要功能包括引导式搜索、自我批评、迭代微调、多步推理任务和零样本学习。它在电子商务、在线预订服务、软件开发、客户服务、数据分析和个性化推荐等领域具有广泛应用前景。

VideoGrain

VideoGrain是由悉尼科技大学与浙江大学联合研发的零样本多粒度视频编辑框架,支持类别级、实例级和部件级的精细化视频修改。它通过调节时空交叉注意力和自注意力机制,提升文本提示对目标区域的控制能力,确保时间一致性与特征分离,显著优于现有T2I和T2V方法。该工具无需额外参数调整,具备高效计算性能,适用于影视制作、广告营销、内容创作等多个领域。

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统,采用轻量级扩散模型,支持中英文及混合语音合成,具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模,可快速生成高质量语音,适用于教育、内容制作、语音交互等多个领域。