模型

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统,支持低延迟交互与多模态输入输出。系统采用模块化架构,允许灵活配置语音识别、语言模型和语音合成等组件,兼容本地与云服务。支持2D/3D数字人渲染,适用于客户服务、教育、娱乐及企业应用等多个场景,为开发者提供高效、灵活的AI对话解决方案。

DNA

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库,它为广泛的研究任务提供了丰富的数据和高质量的注释。

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集,包含4300万条样本,涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量,并采用合成数据生成技术扩展数据集规模。基于此数据集,智源研究院训练出了20亿参数的Aquila-VL-2B模型,在多项基准测试中表现出色,推动了多模态AI领域的研究与发展。

PydanticAI

一个Pydantic 团队开发的Python代理框架,可以通过生成式AI轻松构建生产级应用程序。

FlagEval

FlagEval作为一个专业的语言模型评估平台,为用户提供了一个可靠、标准化的评测环境。通过这个平台,研究人员和开发者可以全面了解模型的性能,推动语言模型技术的不断进步和创新。

ERA

ERA-42是一款由北京星动纪元开发的端到端原生机器人大模型,结合五指灵巧手星动XHAND1,可执行超过100种复杂灵巧操作任务。ERA-42无需预编程,具有快速学习能力,能在短时间内掌握新技能。该模型融合多模态信息,具备强大的跨模态能力和泛化能力,适用于工业自动化、医疗辅助、家庭服务、灾难救援和物流配送等多种场景。

Ola

Ola是一款由多机构联合开发的全模态语言模型,支持文本、图像、视频和音频等多种输入形式。通过渐进式模态对齐策略,逐步扩展模型的多模态理解能力,同时采用流式解码技术提升交互体验。其架构融合多种编码器与解码器,结合局部-全局注意力机制,实现高效多模态处理,在多项任务中表现优异。

LangGraph

LangGraph 是一款基于图结构的 Agent 框架,专为构建状态化、多智能体系统设计,尤其适用于与大型语言模型(LLMs)协作的场景。其主要功能包括支持循环和条件逻辑、持久性状态管理、人工干预以及与 LangChain 的无缝集成。通过灵活的状态控制和条件边定义,LangGraph 能够高效支持复杂业务流程的自动化,同时具备强大的流式输出能力,广泛应用于客户服务、数据分析、业务流程优化和个性

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面(GUI)的智能代理模型,具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则,即可实现端到端的GUI任务自动化,适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术,支持高效的界面交互与精准的视觉定位。

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。