多模态 - 智狐AI导航

Megrez

Megrez-3B-Omni是一款具备全模态理解能力的开源模型，支持图像、音频和文本的综合处理，具备强大的推理效率和多模态交互功能。它能够在多个权威测试集中展现卓越性能，尤其擅长场景理解、OCR识别及语言生成等任务，同时通过智能WebSearch调用增强问题解答能力，适用于个人助理、智能家居、车载系统等多种应用场景。

AI项目与工具 2025年06月12日 25 点赞 0 评论 898 浏览

NodeTool

NodeTool是一款开源的AI工作流可视化构建工具，通过图形化界面和无代码开发环境，用户可以便捷地集成并运行多种AI模型。它支持本地GPU运行、云服务扩展以及多模态数据处理，适用于图像生成、音乐创作、音频转视觉艺术等多个领域，为非技术用户提供高效且灵活的AI解决方案。 ---

AI项目与工具 2025年06月12日 57 点赞 0 评论 899 浏览

文远知行

全球领先的自动驾驶科技公司，文远知行提供从L2到L4的自动驾驶产品和服务，涵盖Robotaxi、Robobus、Robovan等多种自动驾驶车辆。

Ai科技公司 2025年06月05日 61 点赞 0 评论 923 浏览

跃问创意板

跃问创意板是一款基于AI技术的用户友好型应用生成工具，支持通过自然语言指令快速创建小游戏、互动网页和可视化内容。具备零门槛操作、多轮交互、自动代码修复、版本管理和一键分享等功能，适用于游戏开发、教育、生活娱乐等多个场景，为用户提供高效便捷的创意实现方式。

AI项目与工具 2025年06月12日 18 点赞 0 评论 926 浏览

Story Flicks

一款开源的基于AI大模型的故事短视频生成工具。用户输入故事主题，就能够迅速生成包含AI生成图像、故事内容以及音频的视频。

Ai视频生成 2025年06月05日 80 点赞 0 评论 927 浏览

BlueLM

BlueLM-V-3B是一种针对移动设备设计的多模态大型语言模型，结合了高效算法与系统优化，支持快速、低功耗的文本与图像处理。其主要特性包括多模态理解、实时响应、隐私保护、高效率部署及跨语言能力。该模型通过动态分辨率调整、批量图像编码及令牌下采样等技术，实现了在有限资源下的高性能表现。

AI项目与工具 2025年06月12日 62 点赞 0 评论 932 浏览

Large Motion Model

Large Motion Model（LMM）是一款由新加坡南洋理工大学S-Lab和商汤科技合作研发的多模态运动生成框架。它支持从文本、音乐等多种模态生成逼真运动序列，具备高度精准的身体部位控制能力和强大的泛化能力。通过整合多样化的MotionVerse数据集以及创新性的ArtAttention机制和预训练策略，LMM在多个领域展现出高效的应用潜力，包括动画、虚拟现实、影视特效及运动分析等。

AI项目与工具 2025年06月12日 47 点赞 0 评论 957 浏览

PixVerse V2

PixVerse V2是一款基于Diffusion+Transformer（DiT）架构并结合自研时空注意力机制的AI视频生成工具。它支持生成长度可达40秒的视频，单个片段最长可达8秒，且能保持视频片段间的一致性。用户可通过简单操作生成并编辑视频，适用于创意专业人士、社交媒体用户、企业营销人员及独立艺术家等多种人群。

AI项目与工具 2025年06月12日 47 点赞 0 评论 1008 浏览

Data Formulator

Data Formulator是由微软研究院开发的开源AI数据可视化工具，结合图形化界面与自然语言输入，支持复杂数据转换和图表迭代设计。用户可通过拖拽或指令创建可视化，AI自动处理数据转换和代码生成。具备数据验证、样式调整和多模态交互等功能，适用于数据分析、概念扩展及可视化优化场景。

AI项目与工具 2025年06月12日 73 点赞 0 评论 1139 浏览

VILA

VILA-U 是一款由 MIT 汉实验室开发的统一基础模型，整合了视频、图像和语言的理解与生成能力。它通过自回归框架简化模型结构，支持视觉理解、视觉生成、多模态学习和零样本学习等功能。VILA-U 在预训练阶段采用混合数据集，利用残差向量量化和深度变换器提升表示能力，适用于图像生成、内容创作辅助、自动化设计、教育和残障人士辅助等多种场景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 1287 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期