多模态

ENEL

ENEL是一种无编码器架构的3D大型多模态模型,通过直接处理点云数据并结合LLM实现高效语义编码与几何结构理解。其核心技术包括LLM嵌入的语义编码和分层几何聚合策略,在3D对象分类、字幕生成和视觉问答等任务中表现出色,性能接近更大规模模型。该模型适用于工业自动化、虚拟现实及复杂3D结构分析等领域。

商量智能助手

商汤科技研发的一款基于自然语言处理技术的人工智能大语言模型。它具备强大的语言理解和生成能力,能够高效地解答用户的问题,提供定制化建议,并辅助创作高质量文本。

Go Charlie

一款AI营销助手,帮助企业家和企业快速轻松地创建和发布内容,Go Charlie可帮助您在几秒钟内创建图像、博客、广告、影响者帖子等。

云从科技从容大模型

云从科技从容大模型是一个多功能、跨行业的AI大模型,它通过集成云从科技的核心技术,为用户提供个性化、智能化的服务和解决方案。

文心大模型4.5 Turbo

文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型,支持文本、图像、视频等多种输入形式,具备强大的逻辑推理与去幻觉能力,可辅助代码编写。相比前代产品,其速度更快、成本更低,适用于内容创作、智能客服、电商营销、教育及办公自动化等多个场景,已在文心一言平台上线。

Embodied Reasoner

Embodied Reasoner是由多家科研机构联合开发的具身交互推理模型,通过视觉搜索、推理与行动协同完成复杂任务。采用模仿学习、自我探索和自我修正三阶段训练方法,生成多样化思考过程,提升任务规划效率。在长时序任务中表现优异,减少重复搜索和逻辑错误。适用于智能家居、仓储物流、医疗辅助等多个场景,具备多模态交互和强推理能力。

Step

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架,专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力,可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域,同时支持预训练模型微调和端到端开发流程,为企业提供高效灵活的解决方案。

Agent

Agent-S 是一款基于图形用户界面(GUI)的人机交互自动化框架,通过经验增强的分层规划和代理-计算机接口(ACI),实现了复杂任务的自动化分解与执行。它结合多模态大型语言模型(MLLMs)进行推理和控制,并具备持续学习和跨操作系统通用性的特点,适用于办公自动化、网页交互、个人助理、客户服务和教育等多个场景。

MinerU

MinerU是一款开源智能数据提取工具,专注于复杂PDF文档的高效解析与提取。它能够将包含多种内容类型的PDF文档转换为结构化的Markdown格式,支持图像、公式、表格和文本等多种内容处理,保留原始文档结构和格式,支持公式识别与转换成LaTeX格式,自动删除页眉、页脚、脚注和页码等非内容元素,适用于学术、财务、法律等多个领域。