多模态

豆包大模型1.5

豆包大模型1.5是字节跳动推出的高性能AI模型,采用大规模稀疏MoE架构,具备卓越的综合性能和多模态能力。支持文本、语音、图像等多种输入输出方式,适用于智能辅导、情感分析、文本与视频生成等场景。模型训练数据完全自主,性能优于GPT-4o和Claude 3.5 Sonnet等主流模型,且具备成本优势。

Embed3

Embed3是一款由Cohere研发的多模态AI搜索模型,支持从文本和图像生成嵌入向量,实现智能化的跨模态搜索。它能够处理多种语言,支持复杂数据集的快速检索,并提供一致的用户体验。主要功能包括多模态搜索能力、跨语言支持、增强型检索-生成系统以及简化数据管理。适用于商业智能、电子商务、设计创作、文档管理和客户服务等多个领域。

FakeShield

FakeShield是一款由北京大学研发的多模态大型语言模型框架,主要用于检测和定位图像篡改。它通过结合视觉与文本信息,生成篡改区域掩码并提供详细的判断依据。其核心模块包括领域标签引导的检测模块和多模态定位模块,支持多种篡改技术的分析,具有较高的准确性与可解释性。FakeShield广泛应用于社交媒体内容审核、法律取证、新闻媒体真实性验证以及版权保护等领域。

Ivy

Ivy-VL是一款专为移动端和边缘设备设计的轻量级多模态AI模型,具备约30亿参数,专注于视觉问答、图像描述及复杂推理等任务,能够有效降低计算资源需求,同时在多模态任务中表现出色,尤其适用于增强现实、智能家居及移动学习等领域。

Ola

Ola是一款由多机构联合开发的全模态语言模型,支持文本、图像、视频和音频等多种输入形式。通过渐进式模态对齐策略,逐步扩展模型的多模态理解能力,同时采用流式解码技术提升交互体验。其架构融合多种编码器与解码器,结合局部-全局注意力机制,实现高效多模态处理,在多项任务中表现优异。

InstructMove

InstructMove是由东京大学与Adobe合作开发的图像编辑模型,基于视频帧对变化学习如何根据指令进行图像操作。它能够执行非刚性编辑、视角调整和元素重排等任务,同时支持精确的局部编辑。该模型采用真实视频数据训练,提升编辑自然性与真实性,适用于影视、广告、设计等多个领域。其技术基于多模态语言模型和扩散模型,结合掩码和ControlNet等控制机制,实现灵活高效的图像编辑。

讯飞星火PC版

讯飞星火PC版是科大讯飞推出的一款桌面级AI工具,集成了强大的跨领域知识理解和语言处理能力。它支持自然对话方式,涵盖写作、搜索、问答、翻译、PPT生成、图像生成等功能,并新增了深度搜索与多模态交互能力,可广泛应用于办公、教育、内容创作和技术开发等领域,提供高效便捷的智能服务。

百度搜索MCP广场

百度搜索MCP广场是百度搜索AI开放平台提供的MCP Servers集成平台,为开发者提供海量服务资源,涵盖搜索、地图、文件系统等多个领域。平台具备智能搜索与推荐功能,支持快速筛选和集成所需服务,提升开发效率。同时支持本地与云端部署,适用于AI应用开发、多模态生成、企业级解决方案及内容创作等多种场景。

Dola

Dola是一款基于人工智能的日历助手,它允许用户通过多种方式(包括文字、语音和图片)与主要的即时通讯软件交互,以高效地创建和管理日程事件。Dola具备自然语言理解和日历同步功能,能够自动识别并添加日程,支持跨平台同步,并在事件开始前发送提醒。此外,它还提供群组管理功能,适合团队和组织使用。Dola简化了日程管理流程,提升了个人和团队的工作效率。

MetaMorph

MetaMorph是一款基于多模态大模型的工具,通过Visual-Predictive Instruction Tuning(VPiT)技术实现文本和视觉token的生成。它在视觉理解和生成领域表现优异,能够克服其他生成模型的常见失败模式,同时有效处理专业术语和复杂语义问题。MetaMorph展示了统一建模方法的优势,支持多模态数据的高效处理,并在视觉生成与理解基准测试中取得竞争力表现。