多模态模型

OmniSVG

OmniSVG是复旦大学与StepFun联合开发的全球首个端到端多模态SVG生成模型，基于预训练视觉语言模型，通过创新的SVG标记化技术实现结构与细节的解耦，支持从文本、图像或角色参考生成高质量矢量图形。其训练效率高，支持长序列处理，适用于图标设计、网页开发、游戏角色生成等场景，生成结果具备高度可编辑性和跨平台兼容性。

AI项目与工具 2025年06月12日 90 点赞 0 评论 880 浏览

明岐

明岐是上海交通大学LoCCS实验室开发的医学多模态大模型，专注于罕见病精准诊断。它整合影像、病历与化验数据，采用双引擎架构实现高精度、可解释的诊断，准确率超92%。通过模型优化技术，支持低成本本地化部署，适用于基层医疗、远程服务及科研教学，助力医疗资源均衡发展。

AI项目与工具 2025年06月11日 28 点赞 0 评论 843 浏览

InternVL3

InternVL3是上海人工智能实验室推出的多模态大型语言模型，具备文本、图像、视频等多模态数据处理能力。采用原生多模态预训练方法，提升语言与视觉理解效率，并支持工具使用、3D视觉、工业图像分析等复杂任务。模型可通过API部署，适用于智能交互、图像识别、视频分析及客服系统等多种场景。

AI项目与工具 2025年06月11日 68 点赞 0 评论 501 浏览

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面（GUI）的智能代理模型，具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则，即可实现端到端的GUI任务自动化，适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术，支持高效的界面交互与精准的视觉定位。

AI项目与工具 2025年06月11日 31 点赞 0 评论 604 浏览

LiveCC

LiveCC是一款由新加坡国立大学Show Lab与字节跳动联合开发的实时视频解说模型，基于自动语音识别字幕进行训练。它能够实时生成自然流畅的视频评论和回答相关问题，适用于体育、新闻、教育等多个场景。模型采用流式训练方法，结合大规模数据集和Qwen2-VL架构，具备低延迟和高质量的生成能力。LiveCC通过LiveSports-3K基准测试评估性能，广泛应用于视频内容分析与智能交互场景。

AI项目与工具 2025年06月11日 100 点赞 0 评论 540 浏览

基石智算

基石智算是青云科技推出的AI算力云服务平台，支持多种异构算力资源的统一调度与管理，具备弹性扩容、分布式任务调度、一站式AI开发及模型部署等功能。平台适用于AI模型训练、高性能计算、数据科学分析及模型推理等多种场景，提供灵活的服务模式和全面的资源监控与管理能力，助力用户高效开展人工智能相关工作。

AI项目与工具 2025年06月11日 49 点赞 0 评论 763 浏览

Step1X

Step1X-Edit 是由阶跃星辰团队推出的通用图像编辑框架，结合多模态大语言模型与扩散模型，支持多样化的图像编辑任务，如主体修改、背景更换、风格转换等。用户可通过自然语言指令进行操作，系统能精准理解并生成高质量图像。该工具基于大规模数据集训练，具备强大的真实场景适应能力，适用于创意设计、影视制作、社交媒体等多个领域。

AI项目与工具 2025年06月11日 81 点赞 0 评论 787 浏览

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器，支持视觉生成与理解任务。其采用多码本量化技术，将视觉特征分割并独立量化，显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率，图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块，广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

AI项目与工具 2025年06月11日 22 点赞 0 评论 422 浏览

NoteLLM

NoteLLM 是一款基于多模态大型语言模型的笔记推荐框架，支持文本与图像信息的融合处理。通过自动生成标签、压缩嵌入、对比学习和指令微调等技术，提升推荐准确性与相关性。其升级版 NoteLLM-2 引入多模态上下文学习与晚期融合机制，增强视觉信息处理能力，适用于个性化推荐、冷启动优化及内容创作辅助等场景。

AI项目与工具 2025年06月11日 84 点赞 0 评论 735 浏览

Insert Anything

Insert Anything是由多所高校联合开发的图像插入框架，支持多种场景下的对象无缝融合，如艺术创作、虚拟试穿和影视特效等。基于大规模数据集训练，具备高分辨率输出与语义一致性保障。用户可通过掩码或文本指令实现精准控制，适用于创意设计与数字内容生成领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 474 浏览

多模态模型

首页

多模态模型

列表

默认

浏览次数

发布日期