多模态

同花顺·问财

同花顺·问财大模型是一款集合了实时数据获取、深度语义理解、专业投资建议、数据可视化和内容安全控制等多功能的智能投顾工具。

LobeChat

LobeChat 是一款开源的 AI 聊天框架,支持多供应商集成,提供知识库管理、多模态交互(视觉识别和文本转语音)、插件扩展等功能。用户可通过一键部署创建私有 AI 聊天服务,并支持文件上传与管理。其应用场景广泛,包括客户服务、个人助理、教育、企业沟通、内容创作和语言学习等领域。

智谱AI

智谱AI开放平台,GPT人工智能模型,基于领先的千亿级多语言、多模态预训练模型,打造高效率、通用化的“模型即服务”AI开发新范式。

OmniSearch

OmniSearch是一款由阿里巴巴通义实验室开发的多模态检索增强生成框架,具备自适应规划能力。它能够动态解析复杂问题,根据检索结果和问题情境调整检索策略,模拟人类解决复杂问题的行为,提升检索效率和准确性。OmniSearch支持多模态信息处理,包括文本、图像等,并通过递归检索与推理流程逐步接近问题解答,显著提高多模态检索的灵活性和效果。

Megrez

Megrez-3B-Omni是一款具备全模态理解能力的开源模型,支持图像、音频和文本的综合处理,具备强大的推理效率和多模态交互功能。它能够在多个权威测试集中展现卓越性能,尤其擅长场景理解、OCR识别及语言生成等任务,同时通过智能WebSearch调用增强问题解答能力,适用于个人助理、智能家居、车载系统等多种应用场景。

纳米搜索

纳米搜索是一款由360集团开发的多功能AI搜索引擎,支持文字、语音、拍照和视频等多种搜索方式,涵盖从简单到复杂的全方位解答方案。它整合了16款顶尖大模型能力,配备了智能工具,如写作、翻译和旅游规划助手,旨在提升多场景下的操作效率。此外,其独特的AI脱口秀功能,能将搜索结果转化为视频内容,为用户提供更直观的知识获取体验。

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型,通过“扩展-压缩”策略优化处理高分辨率图像和长视频,兼具效率与准确性。它在图像和视频基准测试中表现优异,支持时间定位、机器人导航和医疗成像等应用场景,并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

Optimus

Optimus-1是一款由哈尔滨工业大学(深圳)和鹏城实验室联合开发的智能体框架,专为开放世界环境中的长期任务设计。它结合结构化知识与多模态经验,通过混合多模态记忆模块(HDKG与AMEP)提升任务规划与执行能力。主要功能包括知识引导规划、经验驱动反思、行动控制及自我进化,已在游戏、虚拟助理、工业自动化等领域得到验证。

基石智算

基石智算是青云科技推出的AI算力云服务平台,支持多种异构算力资源的统一调度与管理,具备弹性扩容、分布式任务调度、一站式AI开发及模型部署等功能。平台适用于AI模型训练、高性能计算、数据科学分析及模型推理等多种场景,提供灵活的服务模式和全面的资源监控与管理能力,助力用户高效开展人工智能相关工作。

Ultravox

Ultravox 是一种多模态大型语言模型(LLM),能够直接处理文本和语音输入,无需额外的语音识别步骤。其核心技术包括多模态投影器,用于将音频数据转换为高维空间表示,显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习,适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。