模型

百聆

百聆是一款开源语音对话系统,融合语音识别、语音活动检测、大语言模型和语音合成技术,实现自然流畅的语音交互。支持低延迟运行,无需GPU,适用于边缘设备。具备记忆、工具调用和任务管理等功能,适用于智能家居、个人助理、车载系统等多种场景,提供高效的语音交互解决方案。

3DV

3DV-TON是一种基于扩散模型的视频虚拟试穿框架,由阿里巴巴达摩院、湖畔实验室与浙江大学联合研发。该工具通过生成可动画化的纹理化3D网格作为帧级指导,提升试穿视频的视觉质量和时间一致性。其支持复杂服装图案和多样化人体姿态,提供高分辨率基准数据集HR-VVT,适用于在线购物、时尚设计、影视制作等多个领域。

llmware

llmware是一款面向企业级应用的统一框架,专注于构建基于小型、专业模型的RAG(检索增强生成)流程。它支持私有部署,可安全集成企业知识源,并提供模型目录、库管理、查询接口及RAG优化模型等功能,以降低开发成本并提升效率。适用于知识管理、自动化流程、数据分析及金融、法律等行业,是企业AI应用开发的理想工具。

NEXUS

NEXUS-O是一款由多家知名机构联合开发的多模态AI模型,能够处理音频、图像、视频和文本等多种输入,并以相应形式输出结果。它在视觉理解、音频问答、语音识别和翻译等方面表现出色,具备强大的跨模态对齐与交互能力。模型基于视觉语言预训练,结合高质量音频数据提升性能,并通过多模态任务联合训练增强泛化能力。适用于智能语音助手、视频会议、教育、智能驾驶、医疗健康等多个领域。

Designs AI

Designs.ai 是一个使用人工智能 (AI) 帮助您在几分钟内创建logo、视频、横幅、模型等设计的在线平台。

Stable Diffusion整合包

Stable Diffusion整合包是一款专为新手用户设计的本地部署解决方案,由B站UP主秋葉aaaki开发。它包含Stable Diffusion WebUI、必要的运行环境、预装模型及常用插件,使得用户无需复杂的技术背景就能便捷地安装和使用AI绘画工具。最新版本支持自动更新和多版本切换,并提供了丰富的预装资源和汉化界面,极大地简化了环境配置过程。

ReasonIR

ReasonIR-8B 是由 Meta AI 开发的推理密集型检索模型,基于 LLaMA3.1-8B 训练,采用双编码器架构,提升复杂查询处理能力。结合合成数据生成工具,增强模型在长上下文和抽象问题中的表现。在多个基准测试中表现优异,适用于问答系统、教育、企业知识管理和科研等领域。

Whispo

Whispo是一款AI驱动的语音转录工具,支持用户通过快捷键快速录制语音并将其转写为文本,同时具备本地数据处理、隐私保护及基于大型语言模型的文本后处理功能。它适用于会议记录、教育、自动字幕生成等多个场景,旨在提升工作效率和用户体验。

GO

GO-1是智元机器人推出的首个通用具身基座模型,采用ViLLA架构,结合多模态大模型与混合专家系统,具备场景感知、动作理解和精细执行能力。支持小样本快速泛化、跨本体部署与持续进化,广泛应用于零售、制造、家庭及科研等领域,推动具身智能技术发展。