多模态 - 智狐AI导航

BlueLM

BlueLM-V-3B是一种针对移动设备设计的多模态大型语言模型，结合了高效算法与系统优化，支持快速、低功耗的文本与图像处理。其主要特性包括多模态理解、实时响应、隐私保护、高效率部署及跨语言能力。该模型通过动态分辨率调整、批量图像编码及令牌下采样等技术，实现了在有限资源下的高性能表现。

AI项目与工具 2025年06月12日 62 点赞 0 评论 1055 浏览

InternVideo2.5

InternVideo2.5是一款由上海人工智能实验室联合多机构开发的视频多模态大模型，具备超长视频处理能力和细粒度时空感知。它支持目标跟踪、分割、视频问答等专业视觉任务，适用于视频检索、编辑、监控及自动驾驶等多个领域。模型通过多阶段训练和高效分布式系统实现高性能与低成本。

AI项目与工具 2025年06月12日 50 点赞 0 评论 1050 浏览

NodeTool

NodeTool是一款开源的AI工作流可视化构建工具，通过图形化界面和无代码开发环境，用户可以便捷地集成并运行多种AI模型。它支持本地GPU运行、云服务扩展以及多模态数据处理，适用于图像生成、音乐创作、音频转视觉艺术等多个领域，为非技术用户提供高效且灵活的AI解决方案。 ---

AI项目与工具 2025年06月12日 57 点赞 0 评论 1050 浏览

Project Astra

Project Astra是一款由谷歌DeepMind研发的多模态虚拟助手，支持自然语言和视觉交互。它具备实时对话、记忆功能及工具集成能力，可帮助用户处理日常任务、旅行规划、健康咨询等多种场景需求。当前版本仍在测试中，致力于提升用户体验并保障技术的可靠性。

AI项目与工具 2025年06月12日 37 点赞 0 评论 1039 浏览

Megrez

Megrez-3B-Omni是一款具备全模态理解能力的开源模型，支持图像、音频和文本的综合处理，具备强大的推理效率和多模态交互功能。它能够在多个权威测试集中展现卓越性能，尤其擅长场景理解、OCR识别及语言生成等任务，同时通过智能WebSearch调用增强问题解答能力，适用于个人助理、智能家居、车载系统等多种应用场景。

AI项目与工具 2025年06月12日 25 点赞 0 评论 1036 浏览

GigaTok

GigaTok 是一款基于语义正则化的高参数视觉分词器，支持自回归图像生成，具备优异的图像重建与生成能力。通过一维架构和非对称扩展策略，实现高效计算与稳定训练。适用于图像生成、编辑、数据增强及多模态应用，具有广泛的技术拓展性。

AI项目与工具 2025年06月11日 74 点赞 0 评论 1026 浏览

元象XVERSE

元象 XVERSE是国内领先的 AI 与 3D 技术服务公司，致力于打造 AI 驱动的 3D 内容生产与消费一站式平台，愿景为“定义你的世界”。

Ai科技公司 2025年06月05日 82 点赞 0 评论 1020 浏览

DocMind

DocMind是一款基于Transformer架构的文档智能大模型，融合了深度学习、NLP和CV技术，用于处理富文本文档的复杂结构和视觉信息。它能够精准识别文档实体、捕捉文本依赖关系并深入理解文档内容，支持知识库结合，提升专业文档理解能力。DocMind还具备自动执行文档相关任务的功能，如问题解答、文档分类整理等，广泛应用于法律、教育、金融等领域。

AI项目与工具 2025年06月12日 89 点赞 0 评论 1013 浏览

ILLUME

ILLUME是一款基于大型语言模型的统一多模态大模型，集成了视觉理解与生成能力，采用“连续图像输入 + 离散图像输出”架构，通过语义视觉分词器和三阶段训练流程，实现了高效的数据利用和多模态任务处理能力。模型能够无缝整合视觉理解与生成功能，广泛应用于视频分析、医疗诊断、自动驾驶及艺术创作等领域。

AI项目与工具 2025年06月12日 54 点赞 0 评论 1004 浏览

EchoMimic是一款由阿里蚂蚁集团开发的AI数字人开源项目，通过深度学习模型结合音频和面部标志点，创造出高度逼真的动态肖像视频。该工具支持音频同步动画、面部特征融合、多模态学习和跨语言能力，适用于娱乐、教育和虚拟现实等领域。其独特的技术原理包括音频特征提取、面部标志点定位、面部动画生成和多模态学习，使用了卷积神经网络（CNN）、循环神经网络（RNN）和生成对抗网络（GAN）等深度学习模型，实现

AI项目与工具 2025年06月12日 79 点赞 0 评论 1002 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期