生成

Stable Diffusion 3.5

Stable Diffusion 3.5是一套由Stability AI开发的先进AI图像生成模型,包含多个版本以适应不同需求。它具备高定制性、高效的消费级硬件运行能力和开源许可,能够生成高质量、多样化的图像,支持多种风格和肤色表现。其核心技术基于多模态学习和优化的架构,适用于艺术创作、游戏开发、广告设计等多个领域。 ---

琴乐大模型

琴乐大模型是一款由腾讯AI Lab与腾讯TME天琴实验室联合开发的人工智能音乐创作工具。该工具能够根据用户输入的关键词、描述性语句或音频,生成高质量的立体声音频或多轨乐谱,并支持自动编辑功能。琴乐大模型采用先进的技术框架,包括音频文本对齐、乐谱/音频表征提取、大语言模型预测以及流匹配和声码器技术,确保生成的音乐符合音乐理论和人类审美标准。

Awesome GPT

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例,展示其强大的文本‑图像理解与创作能力。

Bgrem.AI

一款可提供包括去除视频背景、生成图像、重新设计室内装饰、AI 滤镜、生成插图、去除不需要的对象等多种服务的AI工具,用户不需具备编辑技能或技术知识,就可使用 Bgrem.ai 进行图像和视频的编辑。

Perception

Perception-as-Control是由阿里巴巴通义实验室开发的图像动画框架,支持对相机和物体运动的细粒度控制。它基于3D感知运动表示,结合U-Net架构的扩散模型,实现多种运动相关的视频合成任务,如运动生成、运动克隆、转移和编辑。通过三阶段训练策略,提升运动控制精度和稳定性,适用于影视、游戏、VR/AR、广告及教育等多个领域。

腾讯混元文生视频

腾讯混元文生视频是一款利用AI技术生成高质量视频内容的工具,可根据文本提示生成具有大片质感的视频。它支持多语言输入,涵盖高清画质、流畅镜头切换及自然场景模拟等功能,适用于电影制作、广告设计、教育培训等多种应用场景。

World Labs 空间智能模型

World Labs 空间智能模型是一款基于人工智能技术的工具,能够通过单张图片生成逼真的3D世界,并支持实时渲染与交互操作。其核心功能包括3D几何估算、场景补全、内容生成及相机效果模拟,广泛应用于电影、游戏、虚拟现实、教育以及建筑设计等多个领域,大幅提升了创作效率与视觉表现力。

MoCha

MoCha 是一款由 Meta 与滑铁卢大学联合开发的端到端对话角色视频生成模型,支持语音与文本驱动的角色动画生成,具备全身动作模拟与多角色对话交互能力。其核心技术包括扩散变压器架构和语音-视频窗口注意力机制,确保动画与语音精准同步。适用于虚拟主播、影视动画、教育内容及数字人客服等多个领域,提升了内容创作效率与表现力。

InkAI

InkAI 是一款基于 AI 技术的纹身设计工具,支持个性化设计、风格选择和虚拟试穿功能。用户可通过输入描述生成专属纹身草图,并上传照片预览实际效果。适用于个人创意表达、纹身师辅助设计及工作室客户服务,提升设计效率与用户体验。

Stable Chat

用轻松、幽默的方式写一份,关于运动鞋的销售文案。