多模态 - 智狐AI导航

Matrix3D

Matrix3D 是一种由多所高校与科技企业联合开发的统一摄影测量模型，集姿态估计、深度预测、新视图合成与3D重建于一体。其核心技术为多模态扩散变换器，支持跨模态数据融合与灵活任务处理。通过掩码学习策略，提高数据利用效率并增强模型泛化能力。适用于VR/AR、游戏开发、影视制作等领域，具有高度交互性和灵活性。

AI项目与工具 2025年06月12日 49 点赞 0 评论 666 浏览

书生

书生通用大模型体系是一套全面、高效的AI解决方案，涵盖了语言处理、多模态分析、气象预报、翼型设计和三维建模等多个领域。

Ai平台模型 1970年01月01日 0 点赞 0 评论 666 浏览

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法，用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下，通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景，包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

AI项目与工具 2025年06月12日 61 点赞 0 评论 668 浏览

Mogao

Mogao是由字节跳动开发的多模态生成基础模型，结合双视觉编码器和先进位置嵌入技术，实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域，具备强大的跨模态处理能力和生成稳定性。

AI项目与工具 2025年06月11日 97 点赞 0 评论 668 浏览

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具，可生成高质量、自然的说话人头部视频。支持多信号控制（如音频、表情），采用并行 Mamba 结构和门控机制，实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异，适用于虚拟主播、远程会议、在线教育等多种场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 669 浏览

文心大模型4.5 Turbo

文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型，支持文本、图像、视频等多种输入形式，具备强大的逻辑推理与去幻觉能力，可辅助代码编写。相比前代产品，其速度更快、成本更低，适用于内容创作、智能客服、电商营销、教育及办公自动化等多个场景，已在文心一言平台上线。

AI项目与工具 2025年06月11日 19 点赞 0 评论 669 浏览

日日新SenseNova V6

日日新SenseNova V6是商汤科技推出的第六代多模态大模型，基于6000亿参数架构，支持文本、图像、视频的原生融合。具备强推理、长记忆与情感表达能力，适用于视频分析、教育辅导、智能客服、具身智能等多个领域，提升交互体验与内容处理效率。

AI项目与工具 2025年06月11日 19 点赞 0 评论 671 浏览

MVoT

MVoT是一种多模态推理框架，通过生成图像形式的推理痕迹，增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制，有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 57 点赞 0 评论 671 浏览

Step

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

创作工具 1970年01月01日 0 点赞 0 评论 672 浏览

KeySync

KeySync是一种高分辨率口型同步工具，由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架，结合掩码策略和视频分割模型，实现音频与唇部动作的精准对齐。支持高清视频生成，具备遮挡处理、减少表情泄露等功能，在视觉质量、时间连贯性和同步精度上优于现有方法，适用于自动配音、虚拟形象、视频会议等多场景应用。

AI项目与工具 2025年06月11日 32 点赞 0 评论 673 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期