模型

FluxMusic

FluxMusic 是一个开源的音乐生成工具,能够将文本描述转化为音乐。它采用先进的扩散模型和Transformer架构,通过修正流技术提高音乐的自然度和质量。该工具支持多种规模的模型,具备文本到音乐生成、语义理解、多模态融合等功能,适用于音乐创作、影视配乐、游戏音乐生成等多种场景。

LCVD

LCVD是一种由四川大学开发的高保真肖像动画生成框架,支持光照可控的动态视频生成。它通过分离肖像的内在与外在特征,并结合多条件分类器自由引导机制,实现对光照和姿态的精细控制。LCVD在图像质量、视频一致性和光照真实感方面表现突出,适用于虚拟现实、视频会议、影视制作及内容创作等多个领域。

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型,能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出,可分别生成人声与伴奏,便于后期编辑。SongGen通过创新的音频标记化和训练策略,显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准,适用于音乐创作、视频配乐、教育辅助等多个领域。

libcom

libcom是一款由上海交通大学BCMI实验室开发的图像合成工具箱,支持图像融合、和谐化、阴影生成、对象放置及生成式合成等功能,采用传统图像处理与深度学习技术相结合的方式,提供高质量的合成图像解决方案。适用于增强现实、艺术创作、电子商务、影视制作及游戏开发等多个领域。

DeepSeek服务器繁忙怎么解决?16个免费R1满血版平替

本文介绍了16款可替代DeepSeek R1满血版的AI工具,涵盖本地部署、API调用及多平台解决方案。这些工具支持深度思考、联网搜索、多模态交互等功能,部分平台还提供高速专线、文档解析、图片识别等增强特性,满足不同场景下的AI需求。

VideoAnydoor

VideoAnydoor是一款由多所高校与研究机构联合开发的视频对象插入系统,基于文本到视频的扩散模型,支持高保真对象插入与精确运动控制。其核心模块包括ID提取器和像素变形器,能实现对象的自然融合与细节保留。该工具适用于影视特效、虚拟试穿、虚拟旅游、教育等多个领域,具备良好的通用性和扩展性。

Open Deep Research

Open Deep Research 是一个开源 AI 智能体,支持多语言模型和 Firecrawl 数据提取,用于执行复杂的研究任务。它提供统一 API 和 Next.js 框架,具备实时数据处理、结构化信息提取及多维度分析能力,适用于文献综述、行业分析、投资研究等场景。

Marco

Marco是一款由阿里国际研发的大规模商用翻译大模型,支持15种主流语种,具备基于语境的精准翻译能力。其核心功能包括多语种翻译支持、跨境电商优化、多样化风格翻译以及高并发处理能力。Marco采用深度学习技术,结合多语言数据筛选和参数扩展方法,确保翻译质量和效率。它广泛应用于商品信息本地化、多语言客户服务、跨境电商平台及个人文档翻译等领域,助力全球化沟通。

Aiswers

一个一站式AI问答平台,汇聚了ChatGPT, Claude, Gemini等几十款全球顶尖的AI,为用户提供各种问题的解答。涵盖了各种主题,包括学习、技术、文化、生活等,用户不但可以得到文字回答,还能生成各种图片。

MovieDreamer

MovieDreamer是一个由浙江大学与阿里巴巴联合开发的AI视频生成框架,专为长视频设计。该框架结合自回归模型和扩散渲染技术,生成复杂的长视频内容。它支持多层次叙事一致性、高质量视觉渲染和多模态脚本,适用于电影预告片、VR叙事、教育视频和游戏内剧情等多种场景。