多模态模型

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面（GUI）的智能代理模型，具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则，即可实现端到端的GUI任务自动化，适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术，支持高效的界面交互与精准的视觉定位。

AI项目与工具 2025年06月11日 31 点赞 0 评论 604 浏览

InternVL3

InternVL3是上海人工智能实验室推出的多模态大型语言模型，具备文本、图像、视频等多模态数据处理能力。采用原生多模态预训练方法，提升语言与视觉理解效率，并支持工具使用、3D视觉、工业图像分析等复杂任务。模型可通过API部署，适用于智能交互、图像识别、视频分析及客服系统等多种场景。

AI项目与工具 2025年06月11日 68 点赞 0 评论 501 浏览

明岐

明岐是上海交通大学LoCCS实验室开发的医学多模态大模型，专注于罕见病精准诊断。它整合影像、病历与化验数据，采用双引擎架构实现高精度、可解释的诊断，准确率超92%。通过模型优化技术，支持低成本本地化部署，适用于基层医疗、远程服务及科研教学，助力医疗资源均衡发展。

AI项目与工具 2025年06月11日 28 点赞 0 评论 843 浏览

OmniSVG

OmniSVG是复旦大学与StepFun联合开发的全球首个端到端多模态SVG生成模型，基于预训练视觉语言模型，通过创新的SVG标记化技术实现结构与细节的解耦，支持从文本、图像或角色参考生成高质量矢量图形。其训练效率高，支持长序列处理，适用于图标设计、网页开发、游戏角色生成等场景，生成结果具备高度可编辑性和跨平台兼容性。

AI项目与工具 2025年06月12日 90 点赞 0 评论 880 浏览

AnimeGamer

AnimeGamer是一款由腾讯PCG与香港城市大学联合开发的动漫生活模拟系统，基于多模态大语言模型（MLLM），支持玩家通过自然语言指令操控动漫角色，沉浸于动态游戏世界中。系统能生成高一致性的动态动画视频，并实时更新角色状态，如体力、社交和娱乐值。其核心技术包括多模态表示、视频扩散模型及上下文一致性机制，适用于个性化娱乐、创意激发、教育辅助及游戏开发等多种场景。

AI项目与工具 2025年06月12日 49 点赞 0 评论 672 浏览

法唠AI

法唠AI是基于大语言模型开发的法律人工智能工具，专注于证券法与金融法律领域。提供法律问答、知识图谱构建、深度搜索、案件逻辑图绘制、股票信息查询、维权指导及文书生成等功能，支持个性化法律服务，助力用户高效获取法律解决方案。

AI项目与工具 2025年06月12日 87 点赞 0 评论 463 浏览

OThink

OThink-MR1是由OPPO研究院与香港科技大学（广州）联合研发的多模态语言模型优化框架，基于动态KL散度策略（GRPO-D）和奖励模型，提升模型在视觉计数、几何推理等任务中的泛化与推理能力。其具备跨任务迁移能力和动态平衡探索与利用机制，适用于智能视觉问答、图像描述生成、内容审核等多个领域，具有广阔的应用前景。

AI项目与工具 2025年06月12日 21 点赞 0 评论 826 浏览

StarVector

StarVector 是一个开源多模态视觉语言模型，支持图像和文本到可编辑 SVG 文件的转换。采用多模态架构，结合图像编码与语言模型，生成结构紧凑、语义丰富的 SVG 内容。基于 SVG-Stack 数据集训练，适用于图标设计、艺术创作、数据可视化等多种场景，具备良好的性能和扩展性。

AI项目与工具 2025年06月12日 68 点赞 0 评论 562 浏览

HuggingSnap

HuggingSnap 是一款基于 Hugging Face 的 AI 助手应用，采用轻量级多模态模型 SmolVLM2，支持图像、视频和文本的本地处理与生成。具备即时视觉描述、多语言文字识别与翻译、隐私保护等功能，适用于旅行、日常辅助、医疗及零售等场景，确保用户数据安全。

AI项目与工具 2025年06月12日 23 点赞 0 评论 547 浏览

SmolDocling

SmolDocling-256M-preview 是一款轻量级多模态文档处理模型，能将图像文档高效转换为结构化文本，支持文本、公式、图表等多种元素识别。模型参数量仅256M，推理速度快，适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能，并兼容Docling，适用于文档数字化、科学研究及移动环境应用。

AI项目与工具 2025年03月22日 98 点赞 0 评论 523 浏览

多模态模型

首页

多模态模型

列表

默认

浏览次数

发布日期