高质量

LanDiff

LanDiff是一种结合自回归语言模型和扩散模型的文本到视频生成框架,采用粗到细的生成策略,有效提升语义理解与视觉质量。其核心功能包括高效语义压缩、高质量视频生成、语义一致性保障及灵活控制能力。支持长视频生成,降低计算成本,适用于视频制作、VR/AR、教育及社交媒体等多个领域。

HiDream

HiDream-I1是一款由HiDream.ai团队开发的开源AI图像生成模型,具备17亿参数,支持多种图像风格生成,包括真实、卡通和艺术风格。其在提示词理解、细节渲染和图像一致性方面表现出色,适用于艺术创作、商业设计、教育科研等领域。模型采用扩散模型和混合专家架构(MoE),并集成多种文本编码器,实现高质量与高效率的图像生成。项目已在GitHub和HuggingFace开源,便于研究与应用。

PixelFlow

PixelFlow是由香港大学与Adobe联合开发的图像生成模型,支持在像素空间中直接生成高质量图像。其基于流匹配技术和多尺度生成策略,实现从低分辨率到高分辨率的逐步生成,有效降低计算成本。该模型在类别条件图像生成和文本到图像生成任务中表现优异,具备强大的语义理解和视觉表达能力。此外,PixelFlow采用端到端训练方式,支持多种ODE求解器,适用于艺术设计、内容创作、教育研究等多个领域。

Infinite Mobility

Infinite Mobility是由上海AI Lab开发的交互式物体生成模型,基于程序化技术快速生成高质量、多样化的可交互物体,支持22类常见物体,单次生成仅需1秒,成本低至0.01元。其生成的物体广泛应用于机器人仿真、医疗设备开发、家庭服务机器人等领域,提升虚拟训练的真实性和效率。

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型,支持零样本语音克隆和高质量语音合成,具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度,适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本,满足不同性能需求。

Veo 3

Veo 3是谷歌推出的新一代视频生成模型,在I/O开发者大会上发布。它是首个能生成视频背景音效的模型,可合成画面并匹配人物对话和口型,支持1080P高质量视频生成,具备物理模拟与口型同步能力,可生成超过60秒的视频片段,并支持多种视觉风格。Veo 3整合了多项先进技术,适用于影视制作、广告营销及教育领域。

MTVCrafter

MTVCrafter是由中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架,基于4D运动标记化(4DMoT)和运动感知视频扩散Transformer(MV-DiT)实现高质量动画生成。该工具直接对3D运动序列建模,支持泛化到多种角色和风格,保持身份一致性,并在TikTok基准测试中取得优异成绩。其应用场景包括数字人动画、虚拟试穿、沉浸式内

快创3D秀

快创3D秀是一款基于AI人工智能技术的3D动画制作平台,旨在帮助需要视频营销的企业、电商、个人等快速制作出高质量、低成本的宣传视频。

Rendora AI

一款通过生成式AI技术将文本内容快速转换为高质量的3D视频平台。用户只需输入文字,即可在几秒钟内生成栩栩如生的3D数字人视频。

Talefy Ai

AI互动故事生成器,Talefy Ai能够帮助用户轻松创作各种类型的互动故事,将脑海中的故事具象化,并提供沉浸式的故事体验。