框架

MM

MM-StoryAgent是由上海交通大学X-LANCE实验室与阿里巴巴集团联合开发的开源多模态、多智能体框架,用于生成沉浸式有声故事绘本视频。它结合大型语言模型与多模态生成技术,通过多阶段写作流程和模态对齐优化,提升故事内容的质量与连贯性。支持灵活模块化设计,适用于儿童教育、数字内容创作、在线教育等多个场景,为故事创作提供高效、可定制的解决方案。

Pipecat

Pipecat是一款开源Python框架,用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能,支持与主流AI平台集成,采用模块化管道架构,提升开发效率。基于帧的实时处理机制确保流畅交互,适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。

Agno

Agno是一款轻量级智能代理开发框架,支持多模态输入与多代理协作,具备快速创建代理、模型无关性、内存管理及知识库支持等功能。其基于Python实现,架构简洁,兼容性强,适用于智能客服、内容推荐、教育、医疗及办公等多个场景。Agno提供结构化输出与实时监控,便于系统集成与性能优化。

EveryoneNobel

EveryoneNobel是一款基于ComfyUI框架的开源AI工具,专注于生成个性化诺贝尔奖风格图像。用户上传肖像照片并输入基本信息后,系统可自动生成具有独特风格和丰富细节的图像。工具支持个性化定制,适用于社交媒体分享、个人成就展示、教育用途及团队激励等多种场景。 ---

LobeChat

LobeChat 是一款开源的 AI 聊天框架,支持多供应商集成,提供知识库管理、多模态交互(视觉识别和文本转语音)、插件扩展等功能。用户可通过一键部署创建私有 AI 聊天服务,并支持文件上传与管理。其应用场景广泛,包括客户服务、个人助理、教育、企业沟通、内容创作和语言学习等领域。

Wonder Journey

只需输入一段文字描述或上传一张图片,WonderJourney就能从任意指定的地点开始,生成一连串既多样化又连贯的3D场景。

PIKE

PIKE-RAG是由微软亚洲研究院开发的检索增强型生成框架,旨在提升复杂工业场景下的问答准确性与推理能力。通过知识原子化、多智能体规划等技术,支持多跳问题处理和创造性问题解决。适用于法律、医疗、金融等多个领域,具备结构化知识提取、动态任务分解及分阶段开发等核心功能,提高模型生成结果的可靠性和实用性。

Vanna AI

一个基于RAG技术的开源Python框架,用于将自然语言问题转换为SQL查询,并支持多种数据库和语言模型。

Cognita

Cognita是一个开源的模块化RAG框架,用于构建高效的问答系统和知识管理系统。它支持本地和生产环境部署,具备API驱动的架构、无代码UI、增量索引和多文档检索功能,适用于企业知识管理、客户支持、内容推荐等场景。开发人员可通过其模块化设计灵活扩展系统,非技术用户也可通过图形界面进行操作。

Stagehand

Stagehand 是一款基于自然语言处理的 AI 工具,专注于网页自动化操作。其核心功能包括自然语言驱动的 `act`、`extract` 和 `observe` API,支持原子化指令执行和多模型适配。Stagehand 可实现网页测试、数据抓取、表单操作及内容监控等多样化任务,广泛应用于网页测试、数据分析、办公自动化等领域。