多模态

灵犀 X2

灵犀 X2 是智元机器人推出的双足人形机器人,具备 28 个自由度和高灵活性,可完成跳舞、奔跑、骑车等复杂动作。搭载 Diffusion 动作生成引擎和多模态交互系统,支持情感识别与毫秒级响应。适用于家庭服务、教育、医疗护理、工业协作及娱乐场景,具备强大的环境感知与任务执行能力。

II

II-Agent 是一个开源的 Agent 框架,通过与大型语言模型(LLM)交互,简化和提升跨领域的工作流程。其核心功能包括研究与事实核查、内容生成、数据分析与可视化、软件开发、工作流自动化及问题解决等。具备动态上下文提示、智能 token 管理、规划与反思能力、多模态处理以及实时通信等功能。支持 CLI 和 WebSocket 接口,适用于智能客服、金融投顾、医疗诊断和教育辅导等多种场景。

Mobvoi MCP Server

Mobvoi MCP Server是出门问问推出的一站式AI工具,集成语音生成、声音克隆、图片驱动数字人、视频配音等多模态能力。用户可通过简单输入文本调用功能,支持多客户端和多场景应用。基于标准化接口和开源生态,提供高效、灵活的数字生产力解决方案,适用于内容创作、虚拟主播、在线教育等多个领域。

Firefly Image Model 4

Firefly Image Model 4 是 Adobe 推出的图像生成模型,支持高分辨率(最高2K)图像生成,并提供对图像结构、风格、视角等的精细控制。其增强版 Firefly Image Model 4 Ultra 特别适用于复杂场景和细节处理。该模型基于深度学习技术,包括 GAN 和 Diffusion Model,能够根据文本描述或参考图像生成高质量图像。广泛应用于创意设计、广告、艺术、

M2UGen

M2UGen是由腾讯PCG ARC实验室与新加坡国立大学共同研发的一款多模态音乐理解和生成框架,支持从文本、图像、视频等多种模态输入生成相应音乐。它具有强大的音乐理解能力、灵活的音乐编辑功能以及多样化的应用场景,适用于音乐制作、影视配乐、音乐教育等多个领域。凭借其创新的技术架构和卓越的表现力,M2UGen已成为当前最优秀的多模态音乐生成工具之一。

AgentScope

AgentScope是一个由阿里巴巴集团开源的多智能体开发平台,支持构建和部署复杂的多智能体应用。它提供易用的拖拽式界面、实时监控和丰富的开发资源,涵盖聊天、图像生成、文本嵌入等任务。AgentScope具备高鲁棒性、分布式支持及容错机制,同时支持多模态数据处理和外部知识库的整合,适用于智能助手、客户服务、软件工程、社会模拟和教育培训等多个应用场景。

讯飞星火X1

讯飞星火X1是科大讯飞推出的基于全国产算力平台训练的大型语言模型,具备深度推理和“慢思考”能力,适用于数学、代码、逻辑推理、文本生成等任务。支持快慢思考统一模型,部署简便,算力需求低。广泛应用于教育、医疗、健康管理等领域,提供精准的智能服务与解决方案。

HiDream.ai

HiDream.ai是一家由前京东副总裁梅涛创立的AI初创公司,推出了名为Pixeling千象的多模态AI视觉平台。该平台支持AI图像、视频和3D生成,集成了先进的神经网络和深度学习技术,具备强大的推理和创造性思维能力,能够实现不同模态之间的无缝转换和互操作性,为用户提供丰富的视觉内容创作及高效的生产力解决方案。主要功能包括智能图片生成、视频创意制作、商品图生成、视频风格转换、3D模型生成、智能重

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型,能够整合文本、音频、视觉、温度和运动数据等多种模态的信息,并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐,支持跨模态检索和零样本学习。它在增强现实(AR)、虚拟现实(VR)、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

智谱API-免费领取

新用户免费领1亿tokens,基于领先的千亿级多语言、多模态预训练模型,打造高效率、通用化的“模型即服务”AI开发新范式。