多模态

The Language of Motion

The Language of Motion是一款由斯坦福大学李飞飞团队开发的多模态语言模型,能够处理文本、语音和动作数据,生成对应的输出模态。该模型在共同语音手势生成任务上表现出色,且支持情感预测等创新任务。它采用编码器-解码器架构,并通过端到端训练实现跨模态信息对齐。The Language of Motion广泛应用于游戏开发、电影制作、虚拟现实、增强现实及社交机器人等领域,推动了虚拟角色自

Versatile

Versatile-OCR-Program是一款开源多模态OCR工具,支持从教育材料中提取文本、公式、表格等结构化数据,输出为JSON或Markdown格式,准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术,支持多语言处理,适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。

狸谱

狸谱是一款集AI图像处理与互动创作于一体的多功能工具,提供“灵魂提取器”功能用于生成物体相关人设形象,同时拥有AI壁纸漫画创作、跑团剧情互动及自定义画风等功能。狸谱凭借其多模态大模型技术和丰富的应用场景,满足用户在娱乐、创意、教育等多个领域的多样化需求。

Reka Flash 3

Reka Flash 3 是一款由 Reka AI 开发的开源推理模型,拥有 21 亿参数,支持多模态输入(文本、图像、视频、音频),并可处理最长 32k 个令牌的上下文。它具备高效的推理能力和多语言支持,适用于日常对话、编码辅助、指令执行等多种场景。模型可在本地部署,支持 4 位量化以降低资源占用,适合广泛的应用需求。

LLMDet

LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器,能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息,实现高精度的零样本检测,并支持图像描述生成与多模态任务优化,适用于多种实际应用场景。

PUMA

PUMA是一款先进的多模态大型语言模型,专注于通过整合多粒度视觉特征提升视觉生成与理解能力。它支持文本到图像生成、图像编辑、条件图像生成及多粒度视觉解码等功能,适用于艺术创作、媒体娱乐、广告营销等多个领域,凭借其强大的多模态预训练和微调技术,成为多模态AI领域的前沿探索。

星火快答

星火快答是科大讯飞推出的AI智能交互系统,集成了虚拟人、语音识别、大数据分析等功能,适用于展厅、会议、营销等场景。支持多模态交互、知识问答、数据可视化与跨屏联动,提升信息传递效率与用户体验。

TimeSuite

TimeSuite是一种由上海AI Lab开发的框架,专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务,提升了模型对视频内容的时间感知能力,减少了幻觉风险,并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务

AgentScope

AgentScope是一个由阿里巴巴集团开源的多智能体开发平台,支持构建和部署复杂的多智能体应用。它提供易用的拖拽式界面、实时监控和丰富的开发资源,涵盖聊天、图像生成、文本嵌入等任务。AgentScope具备高鲁棒性、分布式支持及容错机制,同时支持多模态数据处理和外部知识库的整合,适用于智能助手、客户服务、软件工程、社会模拟和教育培训等多个应用场景。

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型,由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性,能在大量GPU上高效训练,无需梯度检查点。LongVILA通过五阶段训练流程,结合大规模数据集构建和高性能推理,显著提升了长视频字幕的准确性和处理效率。此外,它还支持多种应用场景,包括视频字幕生成、内容分析、视频问答系统等。