模型

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型,能够整合文本、音频、视觉、温度和运动数据等多种模态的信息,并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐,支持跨模态检索和零样本学习。它在增强现实(AR)、虚拟现实(VR)、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

LaDeCo

LaDeCo是一款基于多模态模型的自动化图形设计工具,通过分层规划与逐步生成的方式,实现从多模态输入到高质量设计输出的转换。其核心功能涵盖层规划、层级设计生成、分辨率调整、元素填充及多样化设计输出,广泛适用于设计师、研究人员、评估人员及开发者等群体,助力提升设计效率与质量。

MobileVD

MobileVD是Qualcomm AI Research团队开发的首个面向移动端优化的视频扩散模型,基于Stable Video Diffusion架构,通过降低帧分辨率、多尺度时间表示和剪枝技术,显著提升模型效率。其具备高效的去噪能力和低资源消耗,适用于短视频生成、视频编辑、游戏动画及互动视频等多种应用场景,为移动设备上的视频生成提供了强大支持。

ImagePulse

ImagePulse是由魔搭社区推出的开源项目,专注于图像理解和生成模型的数据集支持。它通过将复杂任务拆解为“修改、添加、移除”“风格迁移”“人脸保持”等原子能力,构建专门的数据集,提升模型在特定任务上的性能。项目提供开源脚本,支持数据集的生成与扩展,并结合多种技术资源实现多模型协同,适用于艺术创作、视频制作、产品展示等多个领域。

MoonShot AI

中文名:月之暗面,一家专注于大模型技术的创业公司,月之暗面致力于将能源转化为智能,通过产品与用户共创智能,实现普惠AI。

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型,利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务,如音乐创作、声音效果设计及语音合成,并可通过ComposableART技术实现对声音属性的精细调控。此外,Fugatto擅长生成动态变化的声音景观,广泛应用于音乐创作、声音设计及广告音频制作等领域。

ReCapture

ReCapture是一种先进的视频处理技术,由谷歌与新加坡国立大学联合研发。它通过多视图扩散模型和点云渲染生成新视角视频,同时使用掩码视频微调技术优化视频质量,保留场景运动并补全不可见部分,广泛应用于电影制作、视频编辑、虚拟现实及新闻报道等领域。

吐司TusiArt

吐司TusiArt是一个由上海必有回响智能科技开发的AI绘画模型分享社区和在线生图平台。平台提供了丰富的AI绘画模型,支持用户在线运行和下载,无需额外软件或硬件支持。用户可以轻松生成、编辑和分享自己的作品,并且平台还支持用户自定义模型的训练和定制。平台具有易于使用的在线生图工具、开放的模型分享平台、海量模型库以及社区互动分享功能。

xGen

xGen-MM是一款由Salesforce开发的开源多模态AI模型,具备处理文本和图像等数据类型的能力。该模型通过学习大量图像和文字信息,在视觉语言任务中表现出色,并通过开源模型、数据集和微调代码库促进模型性能的提升。xGen-MM具有多模态理解、大规模数据学习、高性能生成、开源可访问和微调能力等特点。其应用场景广泛,包括图像描述生成、视觉问答、文档理解、内容创作和信息检索等。