多模态

LaDeCo

LaDeCo是一款基于多模态模型的自动化图形设计工具,通过分层规划与逐步生成的方式,实现从多模态输入到高质量设计输出的转换。其核心功能涵盖层规划、层级设计生成、分辨率调整、元素填充及多样化设计输出,广泛适用于设计师、研究人员、评估人员及开发者等群体,助力提升设计效率与质量。

CAD

CAD-MLLM 是一款基于多模态输入生成参数化 CAD 模型的系统,融合了文本、图像和点云等多种数据形式。它通过命令序列与大型语言模型的结合,实现了高效的数据对齐与处理,并提出了创新的评估指标。CAD-MLLM 具备强大的鲁棒性和交互式设计能力,适用于工业设计、建筑设计、汽车制造等多个领域。

Ovis2

Ovis2是阿里巴巴国际团队开发的多模态大语言模型,采用结构化嵌入对齐技术提升视觉与文本的融合效果。支持视频、图像和多语言处理,强化了思维链推理和复杂场景下的OCR能力。提供多个参数规模的版本,适用于研究、开发及各类应用场景,展现卓越性能。

VideoRAG

VideoRAG是一种基于检索增强生成(RAG)技术的工具,旨在提升长视频的理解能力。它通过提取视频中的多模态信息(如OCR、ASR和对象检测),并将其与视频帧和用户查询结合,增强大型视频语言模型的处理效果。该技术轻量高效,易于集成,适用于视频问答、内容分析、教育、媒体创作及企业知识管理等多个领域。

Firefly Image Model 4

Firefly Image Model 4 是 Adobe 推出的图像生成模型,支持高分辨率(最高2K)图像生成,并提供对图像结构、风格、视角等的精细控制。其增强版 Firefly Image Model 4 Ultra 特别适用于复杂场景和细节处理。该模型基于深度学习技术,包括 GAN 和 Diffusion Model,能够根据文本描述或参考图像生成高质量图像。广泛应用于创意设计、广告、艺术、

HiDream.ai

HiDream.ai是一家由前京东副总裁梅涛创立的AI初创公司,推出了名为Pixeling千象的多模态AI视觉平台。该平台支持AI图像、视频和3D生成,集成了先进的神经网络和深度学习技术,具备强大的推理和创造性思维能力,能够实现不同模态之间的无缝转换和互操作性,为用户提供丰富的视觉内容创作及高效的生产力解决方案。主要功能包括智能图片生成、视频创意制作、商品图生成、视频风格转换、3D模型生成、智能重

Character

Character-3 是 Hedra Studio 推出的全模态 AI 视频生成工具,支持图像、文本和音频输入,生成高质量动态视频。具备全身动作捕捉、情感控制、精准对口型等功能,适用于创意视频、虚拟形象、教育、营销等多个场景。采用多模态融合与先进 AI 技术,提升视频自然度与连贯性,提高内容创作效率。

AudioX

AudioX 是一种基于多模态输入的音频生成模型,支持文本、视频、图像等多种输入方式,能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略,提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力,适用于视频配乐、动画音效、音乐创作等多个场景。

xGen

xGen-MM是一款由Salesforce开发的开源多模态AI模型,具备处理文本和图像等数据类型的能力。该模型通过学习大量图像和文字信息,在视觉语言任务中表现出色,并通过开源模型、数据集和微调代码库促进模型性能的提升。xGen-MM具有多模态理解、大规模数据学习、高性能生成、开源可访问和微调能力等特点。其应用场景广泛,包括图像描述生成、视觉问答、文档理解、内容创作和信息检索等。

生成时代

AIGC 多模态 API 平台,提供 AIGC 图像生成、图像编辑、视频生成、视频编辑、音频生成、训推一体等 API,免去 GPU 和模型维护成本,帮助开发者快速搭建 AIGC 应用。