多模态 - 智狐AI导航

Transfusion

Transfusion是由Meta公司开发的多模态AI模型，能够同时生成文本和图像，并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型，在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据，表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成

AI项目与工具 2025年06月12日 26 点赞 0 评论 607 浏览

RAGFlow

RAGFlow是一个开源的RAG（Retrieval-Augmented Generation）引擎，通过深度学习模型解析和理解文档内容，并增强生成能力。它提供了多种功能，包括自动化工作流、包管理、安全漏洞检测与修复、即时开发环境、AI辅助代码编写以及代码审查。RAGFlow的技术原理涵盖了文档理解、检索增强、生成模型、注意力机制、多模态处理、上下文融合和优化算法。该工具适用于内容创作辅助、数据摘

AI项目与工具 2025年06月12日 10 点赞 0 评论 543 浏览

LMMs

LMMs-Eval 是一个用于多模态AI模型的统一评估框架，提供标准化、广泛覆盖且成本效益高的性能评估解决方案。它支持超过50个任务和10多个模型，并通过透明和可复现的评估流程帮助研究者和开发者全面了解模型能力。LMMs-Eval 还引入了 LMMs-Eval Lite 和 LiveBench，分别通过精简数据集降低评估成本并动态更新评估数据集，以确保模型泛化能力的有效评估。

AI项目与工具 2025年06月12日 86 点赞 0 评论 571 浏览

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型，专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性，采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能，并且其源代码和资源已公开，可供研究和应用。

AI项目与工具 2025年06月12日 73 点赞 0 评论 618 浏览

山海大模型

山海大模型是一款由云知声推出的多模态人工智能模型，具备强大的知识储备和多模态交互能力。它能够通过文本、音频和图像等形式与用户进行实时互动，提供信息查询、知识学习和灵感激发等服务。主要功能包括内容生成与理解、知识问答、逻辑推理、代码能力以及多模态交互特色，如实时响应、情绪感知、音色切换和视觉场景理解。该模型可应用于智能客服、教育辅助、医疗咨询、个人助理和内容创作等多个领域。

AI项目与工具 2025年06月12日 55 点赞 0 评论 620 浏览

CogView

CogView-3-Plus是智谱AI研发的AI文生图模型，采用Transformer架构替代传统的UNet，优化了扩散模型中的噪声规划。它能够根据用户指令生成高质量、高美学评分的图像，支持多种分辨率，并具有实时生成图像的能力。该模型已被集成到“智谱清言”APP中，并提供API服务，适用于艺术创作、游戏设计、广告制作等多个图像生成领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 821 浏览

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积（STC）连接器和音频分支，显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

AI项目与工具 2025年06月12日 50 点赞 0 评论 584 浏览

MUMU

MUMU是一种多模态图像生成模型，通过结合文本提示和参考图像来生成目标图像，提高生成的准确性和质量。该模型基于SDXL的预训练卷积UNet，并融合了视觉语言模型Idefics2的隐藏状态。MUMU能够在风格转换和角色一致性方面展现强大的泛化能力，同时在生成图像时能够很好地保留细节。主要功能包括多模态输入处理、风格转换、角色一致性、细节保留以及条件图像生成。

AI项目与工具 2025年06月12日 58 点赞 0 评论 599 浏览

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型，主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构，集成了视觉和语言信息，通过Siglip视觉编码器和Qwen-2语言模型，实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

AI项目与工具 2025年06月12日 34 点赞 0 评论 837 浏览

HMoE

HMoE（混合异构专家模型）是腾讯混元团队提出的一种新型神经网络架构，旨在提升大型语言模型的性能和计算效率。通过引入不同规模的专家来处理不同复杂度的输入数据，HMoE增强了模型的专业化程度，并采用了新的训练目标和策略，如P-Penalty Loss，以提高参数利用率和计算效率。HMoE在多个预训练评估基准上表现出色，适用于自然语言处理、内容推荐、语音识别、图像和视频分析以及多模态学习等领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 802 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期