跨模态学习

T2V

T2V-Turbo 是一种高效的文本到视频生成模型，能够快速生成高质量视频，同时确保文本与视频的高度一致性。它通过一致性蒸馏技术和混合奖励机制优化生成过程，适用于电影制作、新闻报道、教育及营销等多个领域，支持从创意草图到成品视频的全流程加速。

AI项目与工具 2025年06月12日 16 点赞 0 评论 595 浏览

Spirit LM

Spirit LM 是一种由 Meta AI 开发的多模态语言模型，能够处理文本和语音数据，支持跨模态学习。其基础版（BASE）和表达版（EXPRESSIVE）分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别（ASR）、文本到语音（TTS）、语音分类及情感分析等任务，在语音助手、语音转写、有声读物等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 829 浏览

PromptFix

PromptFix是一款基于扩散模型的开源AI图像修复工具，支持多种图像处理任务，如上色、物体移除、去雾、去模糊等。它通过20步去噪过程精确修复图像缺陷，同时保持图像结构完整性和泛化能力。PromptFix具备高频细节保护、辅助提示适配器、零样本学习能力和大规模数据集构建等特点，适用于个人照片编辑、专业摄影、数字艺术创作、媒体广告及电影制作等多个领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 598 浏览

千影 QianYing

千影 QianYing 是一款由巨人网络推出的 AI 工具，包含游戏视频生成大模型 YingGame 和视频配音大模型 YingSound。YingGame 支持角色动作交互控制与物理仿真，YingSound 具备视频语义理解和时间对齐能力，两者结合可生成高质量的有声游戏视频。该工具旨在降低游戏开发门槛，促进创作平等，并推动游戏行业的创新发展。

AI项目与工具 2025年06月12日 100 点赞 0 评论 696 浏览

XMusic

XMusic是腾讯多媒体实验室开发的AI作曲框架，支持多模态输入（如图片、文字、视频等）生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化，具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景，有效降低音乐创作门槛，提升创作效率与个性化体验。

AI项目与工具 2025年06月12日 77 点赞 0 评论 551 浏览

Ola

Ola是一款由多机构联合开发的全模态语言模型，支持文本、图像、视频和音频等多种输入形式。通过渐进式模态对齐策略，逐步扩展模型的多模态理解能力，同时采用流式解码技术提升交互体验。其架构融合多种编码器与解码器，结合局部-全局注意力机制，实现高效多模态处理，在多项任务中表现优异。

AI项目与工具 2025年06月12日 98 点赞 0 评论 725 浏览

AudioX

AudioX 是一种基于多模态输入的音频生成模型，支持文本、视频、图像等多种输入方式，能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略，提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力，适用于视频配乐、动画音效、音乐创作等多个场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 537 浏览

跨模态学习

首页

跨模态学习

列表

默认

浏览次数

发布日期

T2V

Spirit LM

PromptFix

千影 QianYing

XMusic

Ola

AudioX

跨模态学习 首页 跨模态学习

列表 默认 浏览次数 发布日期

T2V

Spirit LM

PromptFix

千影 QianYing

XMusic

Ola

AudioX

跨模态学习

首页

跨模态学习

列表

默认

浏览次数

发布日期