多模态理解

Pixtral 12B

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型，能够同时处理图像和文本数据。该模型包含120亿参数，大小约为24GB，基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力，能够执行图像描述生成、统计照片中的物体数量等任务，并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源，用户可以自由下载和微调该模型。应用场景广泛，包括

AI项目与工具 2025年06月12日 69 点赞 0 评论 812 浏览

FastVLM

FastVLM是一款高效的视觉语言模型，采用FastViTHD混合视觉编码器，显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时，降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务，具备良好的实用性和扩展性。

AI项目与工具 2025年06月11日 85 点赞 0 评论 756 浏览

CogVideo

目前最大的通用领域文本生成视频预训练模型，含94亿参数。CogVideo将预训练文本到图像生成模型（CogView2）有效地利用到文本到视频生成模型，并使用了多帧率分层训练策略。

Ai平台模型 2025年06月05日 16 点赞 0 评论 732 浏览

Project Mariner

Project Mariner是一款由谷歌DeepMind研发的浏览器助手工具，依托Gemini 2.0技术实现浏览器自动化。该工具能够解析并操作网页内容，涵盖像素、文本、图像及表单等多种形式的数据，支持复杂任务处理与自动化流程管理。此外，它强调用户体验与安全性，在执行关键操作时需获得用户授权。主要应用场景包括数据整理、在线购物、旅行规划及日常消费等领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 663 浏览

OpenAI o1模型

OpenAI的最新推理系列AI大模型“Strawberry”，包括“o1-preview”和成本较低的“o1 mini”版本。该模型通过强化学习训练，具备复杂的推理能力和多模态理解能力。它采用了“思维链”机制，增强推理透明度，具备自我纠错功能。在国际数学奥林匹克等基准测试中表现出色，展现出强大的性能。设计时考虑了安全性、可靠性和成本效率。 ---

AI项目与工具 2025年06月12日 14 点赞 0 评论 609 浏览

JanusFlow

JanusFlow是一款集成了自回归语言模型与校正流技术的多模态AI模型，能够在单一框架内高效完成图像理解和生成任务。它通过解耦视觉编码器和表示对齐策略，显著提升了模型在视觉理解与图像生成上的表现，广泛应用于图像生成、多模态内容创作、视觉问答、图像理解和辅助设计等多个领域。

AI项目与工具 2025年06月12日 20 点赞 0 评论 599 浏览

多模态理解

首页

多模态理解

列表

默认

浏览次数

发布日期

Pixtral 12B

FastVLM

CogVideo

Project Mariner

OpenAI o1模型

JanusFlow

多模态理解 首页 多模态理解

列表 默认 浏览次数 发布日期

Pixtral 12B

FastVLM

CogVideo

Project Mariner

OpenAI o1模型

JanusFlow

多模态理解

首页

多模态理解

列表

默认

浏览次数

发布日期