多模态生成

RenderNet

RenderNet是一个基于AI技术的生成式平台，支持图像和视频创作，提供角色一致性控制、姿势调整、面部锁定等功能，适用于影视、游戏、广告及教育等多个领域。其开放API支持开发者构建定制化应用，提升内容创作效率与质量。

AI项目与工具 2025年06月12日 82 点赞 0 评论 580 浏览

奇妙问

奇妙问平台通过提供一站式的交互数字人解决方案，帮助企业在不同行业场景下实现数字化转型，提升服务效率和客户满意度。

创作工具 1970年01月01日 0 点赞 0 评论 586 浏览

ImageRAG

ImageRAG 是一种基于检索增强生成（RAG）技术的图像生成工具，通过动态检索相关图像提升文本到图像模型的生成能力。它能够增强对罕见概念的理解与生成，提升图像的真实度和相关性，支持多模态生成与个性化定制。无需额外训练即可适配多种 T2I 模型，广泛应用于创意设计、品牌推广、教育及影视等领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 639 浏览

百度搜索MCP广场

百度搜索MCP广场是百度搜索AI开放平台提供的MCP Servers集成平台，为开发者提供海量服务资源，涵盖搜索、地图、文件系统等多个领域。平台具备智能搜索与推荐功能，支持快速筛选和集成所需服务，提升开发效率。同时支持本地与云端部署，适用于AI应用开发、多模态生成、企业级解决方案及内容创作等多种场景。

AI项目与工具 2025年06月11日 86 点赞 0 评论 641 浏览

Mogao

Mogao是由字节跳动开发的多模态生成基础模型，结合双视觉编码器和先进位置嵌入技术，实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域，具备强大的跨模态处理能力和生成稳定性。

AI项目与工具 2025年06月11日 97 点赞 0 评论 665 浏览

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法，用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下，通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景，包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

AI项目与工具 2025年06月12日 61 点赞 0 评论 666 浏览

KeySync

KeySync是一种高分辨率口型同步工具，由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架，结合掩码策略和视频分割模型，实现音频与唇部动作的精准对齐。支持高清视频生成，具备遮挡处理、减少表情泄露等功能，在视觉质量、时间连贯性和同步精度上优于现有方法，适用于自动配音、虚拟形象、视频会议等多场景应用。

AI项目与工具 2025年06月11日 32 点赞 0 评论 671 浏览

TextHarmony

TextHarmony是一款由华东师范大学与字节跳动联合开发的多模态生成模型，擅长视觉与文本信息的生成与理解。该模型基于Slide-LoRA技术，支持视觉文本生成、编辑、理解及感知等功能，广泛应用于文档分析、场景文本识别、视觉问题回答、图像编辑与增强以及信息检索等领域。通过高质量数据集的构建与多模态预训练，TextHarmony在视觉与语言生成任务中表现出色。

AI项目与工具 2025年06月12日 47 点赞 0 评论 675 浏览

Heyboss

Heyboss 是一款面向非技术人员的 AI 开发工具，支持通过自然语言或文件上传快速生成 AI 应用、网页、游戏等。具备多模态内容生成、全流程集成开发、模板化创作等功能，适用于个人创意实现、教育、企业开发及专业开发者场景，显著降低技术门槛，提升开发效率。

AI项目与工具 2025年06月12日 50 点赞 0 评论 699 浏览

MM

MM-StoryAgent是由上海交通大学X-LANCE实验室与阿里巴巴集团联合开发的开源多模态、多智能体框架，用于生成沉浸式有声故事绘本视频。它结合大型语言模型与多模态生成技术，通过多阶段写作流程和模态对齐优化，提升故事内容的质量与连贯性。支持灵活模块化设计，适用于儿童教育、数字内容创作、在线教育等多个场景，为故事创作提供高效、可定制的解决方案。

AI项目与工具 2025年06月12日 67 点赞 0 评论 733 浏览

多模态生成

首页

多模态生成

列表

默认

浏览次数

发布日期