多模态
阶跃星辰推出移动端AI智能问答助手跃问APP
跃问是一款基于阶跃星辰Step系列通用大模型开发的移动应用,具备强大的文本和图像处理能力,能够高效完成内容创作、逻辑推理、数据分析等任务。该应用支持联网搜索、文档解析、推理速度优化,并具备拍照识图和语音输入功能。跃问还提供了高效阅读、智能问答、写作翻译和多端同步等功能,为用户提供便捷的信息获取和处理体验。
Paper2Poster
Paper2Poster是由加拿大滑铁卢大学、新加坡国立大学等机构推出的学术框架,基于多模态自动化技术从科学论文生成海报。它通过Parser、Planner和Painter–Commenter系统实现内容压缩、布局优化和视觉质量提升,支持将长篇论文转化为结构化视觉海报。Paper2Poster引入PaperQuiz评估方法,确保海报有效传达核心内容,提高生成效率,适用于学术会议、报告、科研展示及教
OpenVision
OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列,具备从5.9M到632.1M参数的多种模型,适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略,训练效率比同类模型高2至3倍,在多模态任务中表现优异。支持可变大小patch输入,兼具灵活性与高效性,广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。
SmolDocling
SmolDocling-256M-preview 是一款轻量级多模态文档处理模型,能将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别。模型参数量仅256M,推理速度快,适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能,并兼容Docling,适用于文档数字化、科学研究及移动环境应用。
POINTS 1.5
POINTS 1.5 是腾讯微信开发的多模态大模型,基于LLaVA架构设计,包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出,适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术,实现了跨模态任务的精准处理与高效输出。
