多模态 - 智狐AI导航

NVLM

NVLM是NVIDIA研发的多模态大型语言模型，涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构（NVLM-D、NVLM-X、NVLM-H），并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术，广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 720 浏览

VSI

VSI-Bench是一种用于评估多模态大型语言模型（MLLMs）视觉空间智能的基准测试工具，包含超过5000个问题-答案对，覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务，可全面评估模型的空间认知、理解和记忆能力，并提供标准化的测试集用于模型性能对比。 ---

AI项目与工具 2025年06月12日 10 点赞 0 评论 719 浏览

Link·AI

Link·AI 是一款面向企业和个人的 AI 智能体开发平台，集成了多模态大模型、RAG 知识库和插件，支持零代码快速创建具备企业私有知识和高级任务执行能力的智能体。用户能够将 AI 应用轻松接入主流平台，广泛应用于客户服务、营销自动化、企业协作及个人助理等场景，助力提升运营效率和用户体验。

AI项目与工具 2025年06月12日 78 点赞 0 评论 718 浏览

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架，基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动，适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构，提升生成效果与稳定性，广泛应用于影视、游戏、教育、广告等领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 718 浏览

Gemma 3

Gemma 3 是谷歌推出的开源人工智能模型，支持多语言、多模态处理，具备文本、图像及短视频分析能力。提供多种模型尺寸，适配不同硬件环境，优化了单 GPU/TPU 性能，推理速度提升显著。内置图像安全分类器，增强内容安全性。支持多种开发工具和部署方式，适用于人脸识别、物体检测、智能助手、文本分析等场景。

AI项目与工具 2025年06月12日 20 点赞 0 评论 717 浏览

Vidu Q1

Vidu Q1是清华大学朱军教授团队研发的高可控视频生成模型，支持1080p高清视频生成，具备精准音效控制、多主体一致性调节、局部超分重建等功能。在多项国际评测中表现优异，包括VBench和SuperCLUE榜单均获第一。模型基于扩散模型与U-ViT架构，融合文本、图像和视频信息，适用于影视制作、广告宣传及动画创作等领域。

AI项目与工具 2025年06月12日 96 点赞 0 评论 717 浏览

瑞智病理大模型

瑞智病理大模型（RuiPath）是由上海交通大学医学院附属瑞金医院与华为联合开发的国产多模态病理诊断系统，覆盖中国90%的常见癌种及部分罕见病。通过整合图像、文本等多源数据，实现高效、精准的辅助诊断，支持交互式审核流程，提升诊断效率与准确性。模型基于深度学习与华为DCS AI平台，适用于临床诊断、基层医疗、医学教育等多个场景，推动病理诊断智能化发展。

AI项目与工具 2025年06月12日 95 点赞 0 评论 716 浏览

Project Mariner

Project Mariner是一款由谷歌DeepMind研发的浏览器助手工具，依托Gemini 2.0技术实现浏览器自动化。该工具能够解析并操作网页内容，涵盖像素、文本、图像及表单等多种形式的数据，支持复杂任务处理与自动化流程管理。此外，它强调用户体验与安全性，在执行关键操作时需获得用户授权。主要应用场景包括数据整理、在线购物、旅行规划及日常消费等领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 716 浏览

OpenAI o1模型

OpenAI的最新推理系列AI大模型“Strawberry”，包括“o1-preview”和成本较低的“o1 mini”版本。该模型通过强化学习训练，具备复杂的推理能力和多模态理解能力。它采用了“思维链”机制，增强推理透明度，具备自我纠错功能。在国际数学奥林匹克等基准测试中表现出色，展现出强大的性能。设计时考虑了安全性、可靠性和成本效率。 ---

AI项目与工具 2025年06月12日 14 点赞 0 评论 714 浏览

Omnitool

Omnitool是一款开源的AI桌面工具，提供统一界面整合多种AI模型，支持本地运行，保障数据隐私。兼容OpenAI、Stable Diffusion等主流平台，无需复杂配置即可实现图像生成、文本翻译、音频创建等功能。具备高扩展性，支持脚本和第三方工具集成，适用于从初学者到开发者的多场景应用，涵盖艺术创作、教育、企业开发等领域。

AI项目与工具 2025年06月12日 10 点赞 0 评论 714 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期