多模态

文心智能体平台

百度推出的一个基于文心大模型的AI智能体(Agent)平台,文心智能体平台旨在支持广大开发者根据自身行业领域、应用场景,选取不同类型的开发方式,打造大模型时代的产品能力。

Hali

Hali是一款由特斯联与Buttons合作开发的多模态多智能体协作AI助手,具有类人化思考、长期记忆、物理环境感知及多智能体协同能力。它支持个性化服务,包括日程管理、翻译、智能家居控制、健康建议以及娱乐推荐等功能,适用于个人助理、商务沟通、家庭管理和健康生活等多个领域。

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统,支持低延迟交互与多模态输入输出。系统采用模块化架构,允许灵活配置语音识别、语言模型和语音合成等组件,兼容本地与云服务。支持2D/3D数字人渲染,适用于客户服务、教育、娱乐及企业应用等多个场景,为开发者提供高效、灵活的AI对话解决方案。

OlympicArena

OlympicArena是由多所高校与研究机构联合开发的多学科认知推理基准测试框架,包含11,163道国际奥赛双语题目,覆盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。该平台通过答案级与过程级评估,全面衡量AI模型的逻辑与视觉推理能力,支持多模态输入并具备数据泄漏检测机制,适用于AI模型评估、训练优化、教育辅助及科研应用。

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型,通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练,支持多种参数规模,适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能,并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异,具备良好的可扩展性和零样本适应能力。

MT

MT-MegatronLM 是摩尔线程推出的开源混合并行训练框架,支持密集模型、多模态模型和 MoE 模型的高效训练。采用 FP8 混合精度、高性能算子库和集合通信库,提升 GPU 集群算力利用率。通过模型并行、数据并行和流水线并行技术,实现大规模语言模型的高效分布式训练,适用于科研、企业及定制化 AI 应用场景。

AnythingLLM

AnythingLLM 是一款开源、多模态的 AI 客户端工具,支持文本、图像和音频输入,可将文档转化为上下文信息供语言模型使用。支持本地和云端部署,具备多用户管理、工作区隔离、丰富的文档格式支持和强大的 API 接口。适用于企业知识管理、学术研究、个人学习、内容创作等多种场景,保障数据隐私安全。

Oumi

Oumi 是一个开源 AI 平台,支持从数据准备到模型部署的全流程开发。它提供零样板代码体验,支持多种训练方法和多模态模型,适用于自动驾驶、人机交互、学术研究等多个场景。平台具备高效的分布式训练能力和灵活的部署选项,适合企业和研究机构使用。

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集,包含约20万个多模态样本,涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力,并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量,适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

星河易创AI

全功能一站式AI创作平台,集成了行业领先的ChatGPT4.0和ChatGPT3.5对话系统,Midjourney的绘画能力,DALL-E的文本到图像创造力,以及GPT4-ALL的多模态能力。