多模态

VE

VE-Bench是北京大学MMCAL团队研发的一款视频编辑质量评估工具,包含数据库(VE-Bench DB)和量化评估模块(VE-Bench QA)。它综合考虑了视觉质量、文本-视频一致性及源视频与编辑后视频的动态关联性,旨在实现与人类感知一致的精准评估。适用于电影制作、短视频优化、广告行业等多个领域。

AgentRefine

AgentRefine 是由北京邮电大学与美团联合开发的智能体合成框架,采用“精炼调整”方法提升基于大语言模型的智能体在多样化任务中的泛化能力。它通过轨迹中的观察实现错误纠正与自我优化,增强智能体在复杂环境中的适应性和鲁棒性。该框架支持多样化推理路径,广泛应用于自动化决策、游戏 AI、代码生成及自然语言处理等领域。

蓝心大模型

蓝心大模型是由vivo研发的通用大模型矩阵,包括语言、端侧、语音、图像及多模态模型。该模型在内容创作、知识问答、逻辑推理、代码生成、信息提取、多语言翻译等方面表现出色。蓝心端侧大模型3B在移动设备上表现出色,蓝心语音大模型支持多语言,蓝心图像大模型融合了中国特色和东方美学,蓝心多模态大模型则提供了流畅的视频对话体验。

MnnLlmApp

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开发的开源 Android 应用,支持多种大语言模型在本地运行。具备多模态交互能力,可处理文本、图像、音频等多种输入输出任务。应用经过 CPU 推理优化,运行效率高,支持离线使用,保障数据安全。内置 Qwen、Gemma、Llama 等主流模型,适用于内容创作、智能助手、语言学习及创意设计等多种场景。

EVI 3

EVI 3是Hume AI推出的全新语音语言模型,能够同时处理文本和语音标记,实现自然、富有表现力的语音交互。它支持高度个性化,根据用户提示生成任何声音和个性,并实时调节情感和说话风格。在与GPT-4o等模型的对比中,EVI 3在情感理解、表现力、自然度和响应速度等方面表现更优,具备低延迟响应能力,可在300毫秒内生成语音回答。EVI 3适用于智能客服、语音助手、教育辅导、情感支持和内容创作等多个

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能AI模型,具备200万tokens的上下文窗口,支持复杂任务处理、多语言理解和代码生成。它能调用外部工具如Google搜索和代码执行环境,提升信息获取与问题解决能力。适用于编程辅助、数据分析、学术研究、教育及创意内容生成等多个领域,是当前Google系列模型中的佼佼者。

Realtime API

Realtime API是一款由OpenAI研发的低延迟、多模态对话式API,支持文本与音频输入输出,具备实时语音处理、自然语音合成及多模态交互等功能。通过WebSocket协议实现持久连接,支持事件驱动的交互模式,适用于客户服务、语言学习、游戏娱乐等多种应用场景。

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架,集成了文本和图像模态操作环境,提供标准化的基准测试任务。它通过支持多种模型类型(LLMs 和 LMMs),覆盖九个应用场景的 138 项任务,有效提升了开源模型的性能。此外,AndroidLab 提供了丰富的评估指标和操作模式,助力研究者优化模型表现并推动开源解决方案的发展。

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型,专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模,广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。