模型

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型,利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务,如音乐创作、声音效果设计及语音合成,并可通过ComposableART技术实现对声音属性的精细调控。此外,Fugatto擅长生成动态变化的声音景观,广泛应用于音乐创作、声音设计及广告音频制作等领域。

MobileVD

MobileVD是Qualcomm AI Research团队开发的首个面向移动端优化的视频扩散模型,基于Stable Video Diffusion架构,通过降低帧分辨率、多尺度时间表示和剪枝技术,显著提升模型效率。其具备高效的去噪能力和低资源消耗,适用于短视频生成、视频编辑、游戏动画及互动视频等多种应用场景,为移动设备上的视频生成提供了强大支持。

ReCapture

ReCapture是一种先进的视频处理技术,由谷歌与新加坡国立大学联合研发。它通过多视图扩散模型和点云渲染生成新视角视频,同时使用掩码视频微调技术优化视频质量,保留场景运动并补全不可见部分,广泛应用于电影制作、视频编辑、虚拟现实及新闻报道等领域。

ImagePulse

ImagePulse是由魔搭社区推出的开源项目,专注于图像理解和生成模型的数据集支持。它通过将复杂任务拆解为“修改、添加、移除”“风格迁移”“人脸保持”等原子能力,构建专门的数据集,提升模型在特定任务上的性能。项目提供开源脚本,支持数据集的生成与扩展,并结合多种技术资源实现多模型协同,适用于艺术创作、视频制作、产品展示等多个领域。

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型,能够整合文本、音频、视觉、温度和运动数据等多种模态的信息,并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐,支持跨模态检索和零样本学习。它在增强现实(AR)、虚拟现实(VR)、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

LaDeCo

LaDeCo是一款基于多模态模型的自动化图形设计工具,通过分层规划与逐步生成的方式,实现从多模态输入到高质量设计输出的转换。其核心功能涵盖层规划、层级设计生成、分辨率调整、元素填充及多样化设计输出,广泛适用于设计师、研究人员、评估人员及开发者等群体,助力提升设计效率与质量。

MoonShot AI

中文名:月之暗面,一家专注于大模型技术的创业公司,月之暗面致力于将能源转化为智能,通过产品与用户共创智能,实现普惠AI。

法唠AI

法唠AI是基于大语言模型开发的法律人工智能工具,专注于证券法与金融法律领域。提供法律问答、知识图谱构建、深度搜索、案件逻辑图绘制、股票信息查询、维权指导及文书生成等功能,支持个性化法律服务,助力用户高效获取法律解决方案。

CHRONOS

CHRONOS是由上海交通大学与阿里巴巴集团联合开发的新闻时间线生成框架,基于大型语言模型(LLMs)实现开放域与封闭域的时间线构建。其核心机制包括迭代自问自答、问题重写与分而治之策略,能够高效处理信息过载与数据噪声,生成结构清晰、逻辑连贯的事件摘要。适用于新闻整理、金融分析、政府决策、教育研究及品牌宣传等多个领域。

Stability AI开源Stable Diffusion 3 Medium文生图模型

Stable Diffusion 3 Medium是一款由Stability AI开源的文本到图像生成模型,拥有20亿个参数,适用于消费级和企业级GPU。该模型具备照片级真实感、强大的提示理解和排版能力,以及高资源效率。此外,它还支持API试用,并得到了NVIDIA和AMD的支持,以优化其性能。Stability AI致力于开放和安全的AI应用,并计划持续改进SD3 Medium。