实时生成 - 智狐AI导航

ARTalk

ARTalk是由东京大学与日本理化学研究所联合开发的语音驱动3D头部动画生成框架，基于自回归模型实现实时、高同步性的唇部动作和自然表情生成。它通过多尺度运动码本和滑动时间窗口技术提升动画质量，并引入风格编码器实现个性化风格适配。该工具在唇部同步、表情自然性和风格一致性方面优于现有技术，适用于虚拟现实、游戏开发、动画制作及人机交互等领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 888 浏览

SmoothCache

SmoothCache是一种针对Diffusion Transformers（DiT）模型的推理加速技术，通过分析层输出的相似性实现自适应缓存和特征重用，有效减少计算成本并提升生成效率。该技术具有模型无关性、跨模态适用性和易于集成的特点，支持图像、视频、音频及3D模型生成，并在多种应用场景中展现出卓越的性能表现。

AI项目与工具 2025年06月12日 52 点赞 0 评论 860 浏览

Sloyd AI

Sloyd,一个 3D 建模平台，我们的文本转 3D 模型 AI 生成器专门用于将文本提示转换为详细的 3D 模型，可简化创建 3D 模型的过程。

3D&游戏 2025年06月05日 43 点赞 0 评论 853 浏览

Promptopia

Promptopia 是一款基于生成式 AI 技术的创作工具，专注于通过简单的文本提示生成游戏对象、环境和音乐等内容。它结合了多人游戏与实时 AI 资产生成功能，打破创作者与玩家之间的界限，支持用户自由构建沉浸式虚拟世界。此外，平台还提供 AI 微课程和提示库，助力用户提升创作能力。

AI项目与工具 2025年06月12日 55 点赞 0 评论 775 浏览

StreamMultiDiffusion

StreamMultiDiffusion是一款开源的实时交互式图像生成框架，结合了扩散模型的高质量图像合成能力和区域控制的灵活性。用户可以实时生成和编辑图像，通过文本提示和手绘区域生成特定部分的图像，提供高质量的图像输出。其主要功能包括实时图像生成、指定区域文本到图像生成、直观的用户界面、多提示流批处理架构、快速推理技术、区域控制、稳定化技术和Semantic Palette交互式图像生成。

AI项目与工具 2024年01月01日 95 点赞 0 评论 754 浏览

Stable Audio Open Small

Stable Audio Open Small 是由 Stability AI 与 Arm 联合开发的轻量级文本到音频生成模型，参数量降至 3.41 亿，适配移动设备和边缘计算场景。基于深度学习与模型压缩技术，支持快速生成音效、音乐片段等音频内容，适用于实时音频生成任务。具备高效运行、低功耗、多场景应用等特点，可用于音乐创作、游戏音效、视频配乐等领域。

AI项目与工具 2025年06月11日 35 点赞 0 评论 703 浏览

BlinkShot

BlinkShot 是一款基于 AI 的实时图像生成工具，支持用户通过输入描述性提示快速生成高质量图像。它采用 Together AI 的 Flux Schnell 技术，提供自定义分辨率和生成步骤功能，适合艺术创作、设计、游戏开发、广告营销等多个领域。工具基于开源技术开发，具备良好的可扩展性和可观察性。

AI项目与工具 2025年06月12日 19 点赞 0 评论 703 浏览