多模态模型
AnimeGamer
AnimeGamer是一款由腾讯PCG与香港城市大学联合开发的动漫生活模拟系统,基于多模态大语言模型(MLLM),支持玩家通过自然语言指令操控动漫角色,沉浸于动态游戏世界中。系统能生成高一致性的动态动画视频,并实时更新角色状态,如体力、社交和娱乐值。其核心技术包括多模态表示、视频扩散模型及上下文一致性机制,适用于个性化娱乐、创意激发、教育辅助及游戏开发等多种场景。
StarVector
StarVector 是一个开源多模态视觉语言模型,支持图像和文本到可编辑 SVG 文件的转换。采用多模态架构,结合图像编码与语言模型,生成结构紧凑、语义丰富的 SVG 内容。基于 SVG-Stack 数据集训练,适用于图标设计、艺术创作、数据可视化等多种场景,具备良好的性能和扩展性。
HuggingSnap
HuggingSnap 是一款基于 Hugging Face 的 AI 助手应用,采用轻量级多模态模型 SmolVLM2,支持图像、视频和文本的本地处理与生成。具备即时视觉描述、多语言文字识别与翻译、隐私保护等功能,适用于旅行、日常辅助、医疗及零售等场景,确保用户数据安全。
SmolDocling
SmolDocling-256M-preview 是一款轻量级多模态文档处理模型,能将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别。模型参数量仅256M,推理速度快,适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能,并兼容Docling,适用于文档数字化、科学研究及移动环境应用。