框架

Ditto

Ditto是一款基于Flask框架的Web应用程序生成工具,通过自然语言输入和大型语言模型(LLM)实现自动化代码生成,支持模块化结构和无代码操作,适合快速原型开发、教育学习及非技术人员使用。其核心功能包括自然语言解析、代码自动生成、模块化管理以及环境变量配置等。

OThink

OThink-MR1是由OPPO研究院与香港科技大学(广州)联合研发的多模态语言模型优化框架,基于动态KL散度策略(GRPO-D)和奖励模型,提升模型在视觉计数、几何推理等任务中的泛化与推理能力。其具备跨任务迁移能力和动态平衡探索与利用机制,适用于智能视觉问答、图像描述生成、内容审核等多个领域,具有广阔的应用前景。

MagicVideo

MagicVideo-V2是一款由字节跳动公司团队开发的AI视频生成模型和框架。该模型通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块,实现了从文本到高保真视频的转换。生成的视频不仅具有高分辨率,而且在视觉质量和运动流畅度方面表现出色,为用户提供卓越的观看体验。

Animate Anyone

Animate Anyone是一款由阿里巴巴智能计算研究院开发的开源框架,旨在将静态图像中的角色或人物动态化。它采用扩散模型,结合ReferenceNet、Pose Guider姿态引导器和时序生成模块等技术,确保输出的动态视频具有高度一致性和稳定性。该框架支持多种应用,包括角色动态化、时尚视频合成及人类舞蹈生成,用户可通过GitHub或Hugging Face社区轻松体验。

Motion Dreamer

Motion Dreamer是由香港科技大学(广州)研发的视频生成框架,采用两阶段架构生成物理合理的视频内容。通过引入“实例流”实现从稀疏到密集的运动控制,支持用户以少量提示生成时间连贯的视频。其随机掩码训练策略增强了模型的推理能力与泛化性能,已在多个数据集上验证其优越性。适用于视频创作、动画制作、VR/AR及自动驾驶等多个领域。

PIKE

PIKE-RAG是由微软亚洲研究院开发的检索增强型生成框架,旨在提升复杂工业场景下的问答准确性与推理能力。通过知识原子化、多智能体规划等技术,支持多跳问题处理和创造性问题解决。适用于法律、医疗、金融等多个领域,具备结构化知识提取、动态任务分解及分阶段开发等核心功能,提高模型生成结果的可靠性和实用性。

GRUtopia 2.0

GRUtopia 2.0是上海人工智能实验室推出的通用具身智能仿真平台,提供模块化框架、场景自动生成与高效数据采集功能。用户可使用“三行代码”快速定义任务,平台内置百万级标准化物体资产,支持复杂场景的一键生成。同时具备大规模3D场景数据集、AI驱动的NPC系统及基准测试平台,适用于机器人训练、社交互动、导航与操作等任务,推动具身智能从仿真走向现实。

Psi R0

Psi R0是一款基于强化学习的端到端具身模型,支持双灵巧手协同操作,具备多技能串联混训和跨物品、跨场景的泛化能力。通过仿真数据训练及技能优化,Psi R0能在复杂环境中完成长程任务,同时具备自主切换技能的功能,确保高成功率和鲁棒性。主要应用场景包括电商商品打包、工厂产线组装、服务业拣货打包及家居环境清洁整理。

DeepSeek百宝箱

DeepSeek百宝箱是DeepSeek官方维护的GitHub项目,集成了多种支持DeepSeek API的工具和应用,涵盖聊天、知识管理、开发等多个领域。提供开箱即用、详实文档、本地化支持及多平台兼容性,助力开发者高效使用语言模型,提升工作效率。支持模型训练、部署、监控全流程,具备低代码配置、智能上下文感知、毫秒级响应等特性,适用于办公、编程、内容创作等多种场景。

LobeChat

LobeChat 是一款开源的 AI 聊天框架,支持多供应商集成,提供知识库管理、多模态交互(视觉识别和文本转语音)、插件扩展等功能。用户可通过一键部署创建私有 AI 聊天服务,并支持文件上传与管理。其应用场景广泛,包括客户服务、个人助理、教育、企业沟通、内容创作和语言学习等领域。