多模态生成

奇妙问

奇妙问平台通过提供一站式的交互数字人解决方案，帮助企业在不同行业场景下实现数字化转型，提升服务效率和客户满意度。

创作工具 1970年01月01日 0 点赞 0 评论 586 浏览

Goku

Goku是由香港大学与字节跳动联合开发的AI视频生成模型，支持文本到图像、文本到视频、图像到视频等多种生成方式。其核心优势在于高质量的视频输出、低制作成本及多模态生成能力。Goku+作为扩展版本，专注于广告视频创作，具备稳定的动作表现和丰富的表情交互。模型基于大规模数据集和先进架构，适用于广告、教育、娱乐等多个领域，提升了内容创作效率与质量。

AI项目与工具 2025年02月11日 29 点赞 0 评论 788 浏览

Mogao

Mogao是由字节跳动开发的多模态生成基础模型，结合双视觉编码器和先进位置嵌入技术，实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域，具备强大的跨模态处理能力和生成稳定性。

AI项目与工具 2025年06月11日 97 点赞 0 评论 665 浏览

KeySync

KeySync是一种高分辨率口型同步工具，由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架，结合掩码策略和视频分割模型，实现音频与唇部动作的精准对齐。支持高清视频生成，具备遮挡处理、减少表情泄露等功能，在视觉质量、时间连贯性和同步精度上优于现有方法，适用于自动配音、虚拟形象、视频会议等多场景应用。

AI项目与工具 2025年06月11日 32 点赞 0 评论 670 浏览

UniToken

UniToken 是一种面向多模态理解与生成任务的自回归模型，结合了离散与连续视觉表示，实现对图像语义与细节的全面捕捉。它支持图文理解、图像生成、多模态对话、复杂指令执行等多种任务，并具备细粒度视觉处理能力。适用于内容创作、智能客服、教育、医疗及自动驾驶等多个领域。

AI项目与工具 2025年06月11日 67 点赞 0 评论 412 浏览

百度搜索MCP广场

百度搜索MCP广场是百度搜索AI开放平台提供的MCP Servers集成平台，为开发者提供海量服务资源，涵盖搜索、地图、文件系统等多个领域。平台具备智能搜索与推荐功能，支持快速筛选和集成所需服务，提升开发效率。同时支持本地与云端部署，适用于AI应用开发、多模态生成、企业级解决方案及内容创作等多种场景。

AI项目与工具 2025年06月11日 86 点赞 0 评论 640 浏览

Firefly Image Model 4 是 Adobe 推出的图像生成模型，支持高分辨率（最高2K）图像生成，并提供对图像结构、风格、视角等的精细控制。其增强版 Firefly Image Model 4 Ultra 特别适用于复杂场景和细节处理。该模型基于深度学习技术，包括 GAN 和 Diffusion Model，能够根据文本描述或参考图像生成高质量图像。广泛应用于创意设计、广告、艺术、

AI项目与工具 2025年06月11日 27 点赞 0 评论 464 浏览

MiniMax MCP Server

MiniMax MCP Server 是一款基于 MCP 协议的多模态生成服务器，支持视频、图像、语音及声音克隆等功能。其具备高分辨率输出、自然语音生成与声音克隆能力，兼容多种主流客户端。平台采用客户端-服务器架构，结合 RAG 技术提升响应准确性，适用于教学、游戏开发、内容创作等多个领域。

AI项目与工具 2025年06月11日 14 点赞 0 评论 823 浏览

Dream

Dream-7B是由香港大学与华为诺亚方舟实验室联合开发的开源扩散模型，支持文本、数学和代码生成，具备双向上下文建模能力和灵活的生成控制。其在通用任务、数学推理和编程方面表现优异，适用于文本创作、数学求解、编程辅助及复杂任务规划等多种场景，提供高效且高质量的生成服务。

AI项目与工具 2025年06月12日 26 点赞 0 评论 482 浏览

MM

MM-StoryAgent是由上海交通大学X-LANCE实验室与阿里巴巴集团联合开发的开源多模态、多智能体框架，用于生成沉浸式有声故事绘本视频。它结合大型语言模型与多模态生成技术，通过多阶段写作流程和模态对齐优化，提升故事内容的质量与连贯性。支持灵活模块化设计，适用于儿童教育、数字内容创作、在线教育等多个场景，为故事创作提供高效、可定制的解决方案。

AI项目与工具 2025年06月12日 67 点赞 0 评论 733 浏览

多模态生成

首页

多模态生成

列表

默认

浏览次数

发布日期

奇妙问