模型

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具,采用20万小时高质量英语语音数据训练,具备高精度语音转录能力,支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容,并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景,为用户提供灵活且高效的语音转文字解决方案。

Pixtral Large

Pixtral Large是一款由Mistral AI开源的超大规模多模态模型,具备1240亿参数,支持文本、图像和图表的理解与生成。它拥有128K的上下文窗口,能在多语言环境中处理复杂文档和多图像场景,广泛应用于教育、医疗、客服和内容审核等领域。

SimpleAR

SimpleAR是一款由复旦大学与字节跳动联合研发的纯自回归图像生成模型,采用简洁架构实现高质量图像生成。其通过“预训练-有监督微调-强化学习”三阶段训练方法,提升文本跟随能力与生成效果。支持文本到图像及多模态融合生成,兼容加速技术,推理速度快。适用于创意设计、虚拟场景构建、多模态翻译、AR/VR等多个领域。

MotionGen

MotionGen是一款由元象科技开发的3D动作生成模型,它结合了大模型、物理仿真和强化学习算法,使得用户通过简单的文本指令就能生成逼真且流畅的3D动作。该工具简化了3D动画的制作过程,提升了创作效率。其主要功能包括文本到动作的转换、高度逼真和流畅的动作生成、个性化定制、高效的制作流程和技术融合。

广电运通望道大模型

广电运通望道大模型是一个多功能的人工智能平台,它通过集成的高级自然语言处理和数据分析能力,为用户提供了从文本分析到创意生成的一系列服务。

Mini DALL·E 3

Mini DALL·E 3是一款由多所高校联合开发的交互式文本到图像生成工具,支持多轮自然语言对话,实现高质量图像的生成与编辑。系统结合大型语言模型与文本到图像模型,提供内容一致性控制与问答功能,提升交互体验。广泛应用于创意设计、故事插图、概念设计、教育及娱乐等领域,具有高效、灵活和易用的特点。

Migician

Migician是一款由多所高校联合开发的多模态大语言模型,专为多图像定位任务设计。它基于大规模数据集MGrounding-630k,采用端到端架构和两阶段训练方法,支持跨图像精准定位与多任务处理。Migician适用于自动驾驶、安防监控、医疗影像等多个领域,具有高效的推理能力和灵活的输入方式。

FisherAI

一款为提高学习效率而设计的Chrome插件,通过一键操作,支持自动摘要、网页及视频翻译、多轮对话等功能。

Gooey.AI

Gooey.AI提供了一个简单、可组合的无代码 AI 平台,让用户可以访问 OpenAI、Stability、Google 等的最新模型。

Gemini 2.5 Pro

Gemini 2.5 Pro 是谷歌推出的高性能 AI 模型,具备深度推理能力,可在多模态输入下进行复杂任务处理。支持文本、图像、音频、视频及代码等多种输入形式,拥有 100 万 token 的上下文窗口。在推理、代码生成和多模态任务中表现优异,适用于学术研究、软件开发、创意工作和企业应用等多个领域。