多模态生成

Goku

Goku是由香港大学与字节跳动联合开发的AI视频生成模型，支持文本到图像、文本到视频、图像到视频等多种生成方式。其核心优势在于高质量的视频输出、低制作成本及多模态生成能力。Goku+作为扩展版本，专注于广告视频创作，具备稳定的动作表现和丰富的表情交互。模型基于大规模数据集和先进架构，适用于广告、教育、娱乐等多个领域，提升了内容创作效率与质量。

AI项目与工具 2025年02月11日 29 点赞 0 评论 788 浏览

YAYI

YAYI-Ultra是中科闻歌研发的企业级大语言模型，具备多领域专业能力与多模态内容生成能力，支持数学、代码、金融、中医等领域。模型支持超长文本处理、数据分析、任务规划及联网创作，适用于媒体、医疗、财税等行业。采用混合专家架构，结合指令微调技术，在多项评测中表现优异，提供高效、精准的智能化服务。

AI项目与工具 2025年06月12日 25 点赞 0 评论 812 浏览

CustomVideoX

CustomVideoX是一种基于视频扩散变换器的个性化视频生成框架，能够根据参考图像和文本描述生成高质量视频。其核心技术包括3D参考注意力机制、时间感知注意力偏差（TAB）和实体区域感知增强（ERAE），有效提升视频的时间连贯性和语义一致性。支持多种应用场景，如艺术设计、广告营销、影视制作等，具备高效、精准和可扩展的特点。

AI项目与工具 2025年06月12日 98 点赞 0 评论 536 浏览

ImageRAG

ImageRAG 是一种基于检索增强生成（RAG）技术的图像生成工具，通过动态检索相关图像提升文本到图像模型的生成能力。它能够增强对罕见概念的理解与生成，提升图像的真实度和相关性，支持多模态生成与个性化定制。无需额外训练即可适配多种 T2I 模型，广泛应用于创意设计、品牌推广、教育及影视等领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 639 浏览

腾讯混元Turbo S

腾讯混元Turbo S是腾讯推出的高效AI模型，采用Hybrid-Mamba-Transformer架构，提升推理效率并降低计算成本。支持快速响应、多领域推理、内容创作及多模态生成，适用于对话、代码、逻辑推理等场景。兼具短思维链与长思维链能力，性能对标行业领先模型。

AI项目与工具 2025年06月12日 86 点赞 0 评论 746 浏览

FLORA

FLORA是一款面向创意工作者的AI工具平台，通过节点式画布整合文本、图像和视频生成功能，支持故事分析、角色设计、分镜脚本生成及团队协作，提升创意流程效率，适用于视频创作、游戏开发、设计及教育等领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 469 浏览

Liquid

Liquid是由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架，通过VQGAN将图像编码为离散视觉token并与文本共享词汇空间，使大型语言模型无需修改结构即可处理视觉任务。该框架降低训练成本，提升视觉生成与理解性能，并在多模态任务中表现出色。支持图像生成、视觉问答、多模态融合等应用，适用于创意设计、内容创作及智能交互等领域。

AI项目与工具 2025年06月12日 82 点赞 0 评论 511 浏览

MM

MM-StoryAgent是由上海交通大学X-LANCE实验室与阿里巴巴集团联合开发的开源多模态、多智能体框架，用于生成沉浸式有声故事绘本视频。它结合大型语言模型与多模态生成技术，通过多阶段写作流程和模态对齐优化，提升故事内容的质量与连贯性。支持灵活模块化设计，适用于儿童教育、数字内容创作、在线教育等多个场景，为故事创作提供高效、可定制的解决方案。

AI项目与工具 2025年06月12日 67 点赞 0 评论 733 浏览

Dream

Dream-7B是由香港大学与华为诺亚方舟实验室联合开发的开源扩散模型，支持文本、数学和代码生成，具备双向上下文建模能力和灵活的生成控制。其在通用任务、数学推理和编程方面表现优异，适用于文本创作、数学求解、编程辅助及复杂任务规划等多种场景，提供高效且高质量的生成服务。

AI项目与工具 2025年06月12日 26 点赞 0 评论 482 浏览

MiniMax MCP Server

MiniMax MCP Server 是一款基于 MCP 协议的多模态生成服务器，支持视频、图像、语音及声音克隆等功能。其具备高分辨率输出、自然语音生成与声音克隆能力，兼容多种主流客户端。平台采用客户端-服务器架构，结合 RAG 技术提升响应准确性，适用于教学、游戏开发、内容创作等多个领域。

AI项目与工具 2025年06月11日 14 点赞 0 评论 823 浏览

多模态生成

首页

多模态生成

列表

默认

浏览次数

发布日期