多模态输入

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架,结合大型语言模型与视频扩散模型,实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入,精确控制摄像机运动轨迹,具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果,并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域,提高视频创作效率与质量。

九歌

九歌是清华大学研发的AI诗歌生成系统,基于深度学习技术,可生成符合古诗格律的多种体裁作品。支持关键词、文本及图片输入,操作便捷,无需登录即可使用。适用于诗词创作辅助、文化教育、艺术融合及个人娱乐等多个场景,助力中华传统文化的传承与创新。

Fluig

Fluig 是一款基于 AI 的图表生成工具,可将文字、文档或代码快速转化为多种专业图表,如思维导图、流程图等。支持多模态输入和智能格式转换,操作简便,适合无设计背景的用户使用。提供实时协作功能,适用于教育、商业、研究等多个场景,提升信息可视化与团队协作效率。

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,能够将静态图像转化为动态视频,具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构,支持多模态输入,包括中文文本提示和参考图像,实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首,生成高清 1080P 视频,优化时间一致性与运动规律性,适用于广告、影视、游戏开发和内容创作等多个领域。

Augment Code

一家专注于为大型代码库提供AI编程辅助工具的公司,通过上下文感知开发、个性化代码补全、跨文件编辑等功能,帮助开发团队提升效率,特别是擅长处理复杂代码库的维护和重构。

PixVerse AI

PixVerse是一个强大的生成式AI模型,仅需几分钟时间,就可以轻松地将多模态输入转化为令人惊叹的视频。

CAD

CAD-MLLM 是一款基于多模态输入生成参数化 CAD 模型的系统,融合了文本、图像和点云等多种数据形式。它通过命令序列与大型语言模型的结合,实现了高效的数据对齐与处理,并提出了创新的评估指标。CAD-MLLM 具备强大的鲁棒性和交互式设计能力,适用于工业设计、建筑设计、汽车制造等多个领域。

Seed Music

一个强大的音乐生成工具,它通过先进的技术手段,如自回归模型和扩散模型,为用户提供了从音乐创作到编辑再到声音转换的全方位服务。这套系统不仅能够生成高质量的音乐作品,还能...

OmniGen

创新的统一图像生成模型,它通过简化架构和整合多种图像生成任务,为用户提供了一个强大而灵活的工具。它不仅能够处理文本到图像的生成,还能够执行图像编辑、主题驱动生成和视觉...