多模态

Bard PDF

一个用于汇总和分析 PDF 文档的终极 AI 驱动工具,AI Bard PDF允许用户通过自然对话上传PDF文档并与之交互。

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

Responses API

Responses API 是 OpenAI 推出的 AI 代理开发核心接口,结合对话生成与工具调用能力,支持多轮交互与复杂任务处理。具备流式事件处理、统一 Item 结构设计、多态性简化等功能,内置网页搜索、文件搜索和计算机使用等工具。适用于智能客服、市场分析、内容创作等多个领域,提供灵活的定价模式,提升开发效率与用户体验。

DeepEyes

DeepEyes是由小红书团队和西安交通大学联合开发的多模态深度思考模型,基于端到端强化学习实现“用图思考”能力,无需依赖监督微调。它在推理过程中动态调用图像工具,增强对细节的感知与理解,在视觉推理基准测试V* Bench上准确率高达90.1%。具备图像定位、幻觉缓解、多模态推理和动态工具调用等功能,适用于教育、医疗、交通、安防和工业等多个领域。

小爱同学 AI 助手

小爱同学 AI 助手是一款功能全面、智能化程度高的多模态AI助手。它不仅能够提供丰富的信息查询和知识问答服务,还能通过智能分析和建议,帮助用户更高效地规划生活和工作。

Mobile

Mobile-Agent 是一种具备移动能力的智能代理系统,能够跨设备执行任务并优化资源使用。基于多模态大语言模型和视觉感知技术,支持自动操作、自我规划与反思,适用于多应用协同、跨平台操作及纯视觉交互。其技术架构包含多个智能体协作机制,提升了移动设备任务处理的效率与灵活性。

XMusic

XMusic是腾讯多媒体实验室开发的AI作曲框架,支持多模态输入(如图片、文字、视频等)生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化,具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景,有效降低音乐创作门槛,提升创作效率与个性化体验。

BuboGPT | 字节大模型

BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。

OmniBooth

OmniBooth是一款由华为诺亚方舟实验室与香港科技大学联合开发的图像生成框架,支持基于文本或图像的多模态指令控制及实例级定制。它通过高维潜在控制信号实现对图像中对象位置和属性的精准操控,具备多模态嵌入提取、空间变形技术以及特征对齐网络等功能,广泛应用于数据集生成、内容创作、游戏开发、虚拟现实及广告营销等领域。

硅基流动

SiliconCloud 是硅基流动推出的一站式大模型云服务平台。