多模态

Wegic.ai

一款面向未来的 AI网页设计师,通过简单的聊天等多模态交互来完成网站的设计、修改和上线全流程。

InspireMusic

InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具,支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率,并提供快速与高音质两种推理模式,适用于音乐创作、音频处理及个性化音乐生成等场景。

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准,用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题,涵盖26个子类别,支持多层次标注和细粒度异常注释,并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现,揭示了这些模型在合成数据检测任务中的优势与不足。

西鲸AI

一个集成了几十款大模型的平台,西鲸AI免费提供文生文大模型的使用,支持midjourney、Dall-E、SD,以及RAG知识库功能。

讯飞星辰MaaS

讯飞星辰MaaS是一个AI大模型定制微调平台,提供从数据管理到模型微调、评估、托管及推理服务的全流程支持。平台支持多种行业知名模型的零代码微调,具有高度灵活性和可扩展性,适用于逻辑推理、数据管理和多模态应用等场景,为企业提供高效、专业的AI解决方案。

YAYI2

中科闻歌研发的一款新一代开源大语言模型,中文名为“雅意”。该模型包含 Base 和 Chat 版本,参数规模达到 30B,基于 Transformer 架构构建。

Skywork R1V

Skywork R1V是昆仑万维推出的首个工业级多模态思维链推理模型,具备强大的视觉链式推理能力,可处理数学问题、科学现象分析、医学影像诊断等复杂任务。其技术基于文本推理能力的多模态迁移与混合式训练方法,在多项基准测试中表现优异。模型开源,适用于教育、医疗、科研、内容审核等多个领域,推动多模态人工智能的发展。

浦语灵笔

浦语灵笔IXC-2.5是一款由上海人工智能实验室开发的多模态大模型,具备7B规模的大型语言模型后端,能够处理长上下文、超高分辨率图像和细粒度视频理解,支持多轮多图像对话。该模型可以自动生成网页代码和高质量图文内容,在多模态基准测试中表现出色,性能可与OpenAI的GPT-4V相媲美。

跃问视频

由阶跃星辰开发的AI视频生成工具,只需通过简单的文本输入跃问视频就可以生成最长10秒的视频。

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间,实现从粗粒度到细粒度的信息获取,并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理,具备良好的可扩展性,适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。