多模态

AddressCLIP

AddressCLIP 是一种基于 CLIP 技术的端到端图像地理定位模型,由中科院自动化所与阿里云联合开发。它通过图像与地址文本对齐和地理匹配技术,实现街道级别的精确定位,无需依赖 GPS。模型在多个数据集上表现优异,适用于城市管理、社交媒体、旅游导航等多个场景,具备良好的灵活性和多模态结合潜力。

InternVL3

InternVL3是上海人工智能实验室推出的多模态大型语言模型,具备文本、图像、视频等多模态数据处理能力。采用原生多模态预训练方法,提升语言与视觉理解效率,并支持工具使用、3D视觉、工业图像分析等复杂任务。模型可通过API部署,适用于智能交互、图像识别、视频分析及客服系统等多种场景。

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型(MLLM)。它通过整合视觉、语音和文本三种模态的信息,实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据,还支持流式文本-语音生成及跨模态信息交互,适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

ACE

ACE是一款基于扩散Transformer架构的多模态图像生成与编辑工具,通过长上下文条件单元(LCU)和统一条件格式实现自然语言指令的理解与执行。它支持图像生成、编辑、多轮交互等多种任务,适用于艺术创作、媒体制作、广告设计、教育培训等多个领域,提供高效且灵活的视觉内容解决方案。

Open WebUI

一个可扩展、功能丰富且用户友好的自托管 WebUI,适用于各种 LLM 运行器,支持的 LLM 运行器包括 Ollama 和 OpenAI 兼容的 API。

NEXUS

NEXUS-O是一款由多家知名机构联合开发的多模态AI模型,能够处理音频、图像、视频和文本等多种输入,并以相应形式输出结果。它在视觉理解、音频问答、语音识别和翻译等方面表现出色,具备强大的跨模态对齐与交互能力。模型基于视觉语言预训练,结合高质量音频数据提升性能,并通过多模态任务联合训练增强泛化能力。适用于智能语音助手、视频会议、教育、智能驾驶、医疗健康等多个领域。

TimeSuite

TimeSuite是一种由上海AI Lab开发的框架,专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务,提升了模型对视频内容的时间感知能力,减少了幻觉风险,并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务

LangGraph WhatsApp Agent

LangGraph WhatsApp Agent 是一个开源 AI 工具,用于在 WhatsApp 上构建智能代理。支持多代理架构、多模态交互及持久化对话状态,集成多种语言模型,提供安全可靠的通信环境。适用于客户服务、信息推送、教育辅导等多个场景,便于开发者快速构建和部署高效的 WhatsApp 机器人。

LongDocURL

LongDocURL是一个由中国科学院自动化研究所和阿里巴巴联合发布的多模态长文档理解基准数据集,包含2,325组问答对,覆盖33,000页文档,涉及20个子任务。该数据集专注于评估AI模型在长文档理解、数值推理、跨元素定位及多样化任务中的性能,支持文本、图像和表格等多种模式,具有高质量和多样性的特点。

星辰大模型

星辰大模型是中国电信研发的AI工具集,涵盖语义、视觉、语音等多模态领域,支持长文本处理、多语种语音识别和多任务视觉处理。平台提供多种模型选择,包括星辰语义模型、星辰语音大模型及星辰多模态大模型,适用于智能客服、内容审核、智能写作、语音识别与合成、图像识别与分析等多种应用场景。