模型

Amazon Nova Premier

Amazon Nova Premier 是亚马逊推出的多模态 AI 模型,支持文本、图像和视频输入,具备超长上下文处理能力(最高达 100 万 token),适用于复杂任务处理、多步骤规划与跨数据源执行。可通过模型蒸馏生成轻量级版本,优化生产部署。支持多语言,具备安全控制机制,广泛应用于金融、法律、软件开发等领域。

NEXUS

NEXUS-O是一款由多家知名机构联合开发的多模态AI模型,能够处理音频、图像、视频和文本等多种输入,并以相应形式输出结果。它在视觉理解、音频问答、语音识别和翻译等方面表现出色,具备强大的跨模态对齐与交互能力。模型基于视觉语言预训练,结合高质量音频数据提升性能,并通过多模态任务联合训练增强泛化能力。适用于智能语音助手、视频会议、教育、智能驾驶、医疗健康等多个领域。

Botgroup.chat

Botgroup.chat 是一款支持多人 AI 交互的聊天平台,用户可自定义 AI 角色并进行群聊互动。平台兼容多种 AI 模型,支持实时对话、Markdown 排版及数学公式显示,具备上下文记忆和角色管理功能。项目基于 React 和 Cloudflare Pages 构建,部署便捷,代码开源,适用于语言学习、创意讨论等多种场景。

DoraCycle

DoraCycle是由新加坡国立大学Show Lab开发的一种多模态生成模型,通过文本与图像间的双向循环一致性学习,实现跨模态信息转换与对齐。其核心优势在于无需大量标注数据即可完成领域适应,支持风格化设计、虚拟角色生成等多样化任务。模型采用自监督学习和梯度裁剪等技术提升训练稳定性,适用于广告、教育等多个应用场景。

Hulu AI

一个GPT、文心一言、Midjourney和Dall-E对话作图可以永久、不限次数使用的工具,Hulu AI会根据用户的需求,不断更新上线新的功能,比如图片解析、图片融合等等常用功能。

Stable Video 3D (SV3D)

Stable Video 3D(SV3D)是一款由Stability AI公司开发的多视角合成和3D生成模型,能够从单张图片生成一致的多视角图像,并进一步优化生成高质量的3D网格模型。该模型在视频扩散模型基础上进行改进,提供更好的质量和多视角体验。主要功能包括多视角视频生成、3D网格创建、轨道视频生成、相机路径控制以及新视角合成。SV3D在新视角合成方面取得显著进展,能够生成逼真且一致的视图,提升

Qihoo

Qihoo-T2X是由360 AI研究院与中山大学联合研发的高效多模态生成模型,基于代理标记化扩散 Transformer(PT-DiT)架构。该模型通过稀疏代理标记注意力机制显著降低计算复杂度,支持文本到图像、视频及多视图生成。具备高效生成能力和多任务适应性,适用于创意设计、视频制作、教育、游戏开发及广告等多个领域。

Docmatix

Docmatix 是一个专为文档视觉问答任务设计的大规模数据集,包含240万张图像和950万个问题-答案对,源自130万个PDF文档。数据集覆盖广泛,包括扫描图片、PDF文件和数字文档,且具有高质量的问答对。Docmatix 支持模型训练和微调,可用于训练视觉语言模型,提高其在理解和回答与文档内容相关问题方面的性能。应用场景包括自动化客户服务、智能文档分析、教育和学术研究以及业务流程自动化等。

Magma

Magma是微软研究院开发的多模态AI基础模型,具备理解与执行多模态任务的能力,覆盖数字与物理环境。它融合语言、空间与时间智能,支持从UI导航到机器人操作的复杂任务。基于大规模视觉-语言和动作数据预训练,Magma在零样本和微调设置下表现优异,适用于网页操作、机器人控制、视频理解及智能助手等多个领域。

Jina Reader

Jina Reader是一款由Jina AI开发的开源工具,专注于将互联网上的HTML网页内容转换为适合大型语言模型处理的纯文本格式。它支持多种内容格式,具备流模式、JSON模式和Alt生成模式等功能,能够高效提取网页核心内容,去除冗余信息,并通过自然语言处理和动态内容处理技术提升文本质量和理解能力。Jina Reader适用于内容聚合、SEO优化、学术研究及个性化推荐等多个领域。