多模态

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型,专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模,广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型,通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练,支持多种参数规模,适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能,并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异,具备良好的可扩展性和零样本适应能力。

AutoGLM

AutoGLM-Web是一款基于大型语言模型开发的AI浏览器助手,具备网页浏览、信息检索、内容总结及邮件自动回复等功能。它通过自进化在线课程强化学习框架不断优化性能,支持多场景应用,适用于办公自动化、学术研究、电商运营及客户服务等领域。

Hali

Hali是一款由特斯联与Buttons合作开发的多模态多智能体协作AI助手,具有类人化思考、长期记忆、物理环境感知及多智能体协同能力。它支持个性化服务,包括日程管理、翻译、智能家居控制、健康建议以及娱乐推荐等功能,适用于个人助理、商务沟通、家庭管理和健康生活等多个领域。

逻辑智能

逻辑智能(InsiderX)是一款企业级AI工具平台,支持构建智能化工作流,具备多模态感知和自主决策能力,可处理文本、图像和语音数据,实现业务流程自动化。平台支持私有知识库构建、数据安全保障及内容审查,广泛应用于金融、法律、生物医药等行业,助力企业提升效率和降低成本。

MobA

MobA是一种基于多模态大型语言模型的移动智能体,通过高级全局智能体(GA)和低级局部智能体(LA)的两级架构,实现任务规划、分解与执行,支持跨应用操作和自动化流程。其反思模块助力高效处理复杂任务,广泛应用于个人助理、智能家居控制、移动设备自动化及教育等领域。

FluxMusic

FluxMusic 是一个开源的音乐生成工具,能够将文本描述转化为音乐。它采用先进的扩散模型和Transformer架构,通过修正流技术提高音乐的自然度和质量。该工具支持多种规模的模型,具备文本到音乐生成、语义理解、多模态融合等功能,适用于音乐创作、影视配乐、游戏音乐生成等多种场景。

k1.5

k1.5 是月之暗面推出的多模态思考模型,具备强大的数学、代码、视觉推理能力。在 short-CoT 模式下,性能超越主流模型 550%,在 long-CoT 模式下达到 OpenAI o1 水平。支持文本与图像的联合处理,适用于复杂推理、跨模态分析、教育、科研等领域。通过长上下文扩展和策略优化,提升推理效率与准确性。

Being

Being-M0是由北京大学、中国人民大学等机构联合研发的首个大规模人形机器人通用动作生成模型。基于百万级动作数据集 MotionLib 和 MotionBook 编码技术,实现动作序列的高效表示与生成。该模型支持文本驱动动作生成、动作迁移及多模态数据处理,可应用于人形机器人控制、动画制作、VR/AR、人机交互及运动康复等多个领域,显著提升动作生成的多样性和语义对齐精度。

Embed3

Embed3是一款由Cohere研发的多模态AI搜索模型,支持从文本和图像生成嵌入向量,实现智能化的跨模态搜索。它能够处理多种语言,支持复杂数据集的快速检索,并提供一致的用户体验。主要功能包括多模态搜索能力、跨语言支持、增强型检索-生成系统以及简化数据管理。适用于商业智能、电子商务、设计创作、文档管理和客户服务等多个领域。