模型

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集,包含约20万个多模态样本,涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力,并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量,适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

NVLM

NVLM是NVIDIA研发的多模态大型语言模型,涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构(NVLM-D、NVLM-X、NVLM-H),并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术,广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

智谱清流

智谱清流是智谱AI推出的企业级AI智能体开发平台,旨在帮助企业快速构建和部署AI应用,实现业务流程的智能化升级。该平台基于智谱全模型矩阵,提供智能体构建、工作流

SlideChat

SlideChat是一款先进的视觉语言助手,专注于处理和分析千兆像素级别的全切片病理图像。它具备强大的多模态对话能力和复杂指令响应能力,在显微镜检查、诊断等领域展现出卓越性能。通过两阶段训练机制,SlideChat实现了视觉与语言特征的有效对齐,并被广泛应用于病理诊断、医学教育、研究开发以及临床决策支持。 ---

Motionshop

Motionshop是一款由阿里巴巴智能计算研究院开发的AI角色动画框架,能够将视频中的角色转换为3D化身,同时保持视频中其他元素的完整性。该框架利用视频处理、角色检测与分割、姿态分析、模型提取及动画渲染等多项技术,实现了视频中角色从现实到虚拟的无缝转换。用户只需上传一段视频,Motionshop将自动识别视频中的主要人物,并将其转换为3D角色,同时精确复制原视频中人物的动作细节,确保3D角色的动

Amodal3R

Amodal3R 是一种基于条件的 3D 生成模型,能够从部分遮挡的 2D 图像中重建完整的 3D 模型。通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,提升了遮挡场景下的重建精度。该模型仅使用合成数据训练,却能在真实场景中表现出色,具有较强的泛化能力。广泛应用于 AR/VR、机器人视觉、自动驾驶及 3D 资产创建等领域。

Phantom

Phantom是由字节跳动研发的视频生成框架,支持从参考图像中提取主体并生成符合文本描述的视频内容。它采用跨模态对齐技术,结合文本和图像提示,实现高质量、主体一致的视频生成。支持多主体交互、身份保留等功能,适用于虚拟试穿、数字人生成、广告制作等多种场景。模型基于文本-图像-视频三元组数据训练,具备强大的跨模态理解和生成能力。

VidSketch

VidSketch是由浙江大学研发的视频生成框架,支持通过手绘草图和文本提示生成高质量动画。它采用层级草图控制策略和时空注意力机制,提升视频连贯性和质量,适用于不同技能水平的用户。具备多样化风格支持和低门槛创作特点,广泛应用于创意设计、教学、广告及内容创作等领域。

美图AI视觉大模型

奇想智能MiracleVision大模型汇聚顶尖技术,专业人才和行业资源,依托美图视觉实验室的强大AI技术能力,通过美学升级锻造调优实现更懂美学的AI视觉大模型。

钛镁AI

钛镁AI是一家专注于企业级AIGC营销解决方案的平台服务商,提供从市场洞察到舆情管理的全链路服务。其核心功能包括智能体、AI搜索、数智员工、多模态生成能力及专属大模型定制,旨在帮助企业提升营销效率和决策准确性,推动营销AI化转型。