AI项目与工具

Jamba

Jamba是由AI21 Labs开发的基于Mamba架构的生产级别大语言模型，结合了结构化状态空间模型（SSM）和传统Transformer架构，具备高吞吐量和低内存占用的特点。Jamba拥有256K的上下文窗口，适用于处理长文本序列，并且以开放权重的形式发布，遵循Apache 2.0开源许可。该模型主要用于研究领域，未来将推出更安全的版本。

AI项目与工具 2024年01月01日 29 点赞 0 评论 591 浏览

Champ

Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同开发的一款基于3D的AI工具，能够将人物图片转换为高质量的视频动画。Champ通过结合3D参数化模型和潜在扩散模型，精准捕捉和再现人体的3D形态和动态，保证动画的连贯性和视觉逼真度。此外，Champ还支持跨身份动画生成，并能与文本生成图像模型结合，使用户可以根据文本描述生成特定的角色外观和动作。

AI项目与工具 2024年01月01日 81 点赞 0 评论 814 浏览

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型，专攻零样本语音编辑和文本到语音（TTS）任务。它采用Transformer架构，通过token重排过程结合因果掩蔽和延迟叠加技术，实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色，适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

AI项目与工具 2024年01月01日 31 点赞 0 评论 765 浏览

SUPIR

SUPIR是一种创新的图像修复和画质增强方法，基于大规模生成模型StableDiffusion-XL（SDXL）和模型扩展技术。它通过深度学习和多模态方法实现低质量图像的高质量恢复，支持通过文本提示进行图像恢复的精细控制。SUPIR适用于多种应用场景，如老照片修复、模糊图像增强、噪点去除和色彩校正与增强。

AI项目与工具 2024年01月01日 88 点赞 0 评论 741 浏览

BrushNet

BrushNet是一款基于扩散模型的图像修复工具，采用双分支架构处理遮罩区域。它能够实现像素级修复，保持修复区域与原始图像的一致性和高质量。BrushNet适用于多种场景和风格的图像，包括人类、动物、室内和室外场景，以及自然图像、铅笔画、动漫、插画和水彩画等。通过与预训练扩散模型结合，BrushNet提供灵活的修复控制，同时保留未遮罩区域的细节。

AI项目与工具 2024年01月01日 55 点赞 0 评论 702 浏览

LATTE3D

LATTE3D 是由英伟达多伦多AI实验室开发的一种高效生成高质量3D对象的模型。它基于文本描述，能在约400毫秒内生成逼真的3D内容。LATTE3D采用摊销优化方法，增强了对新提示的适应能力。该模型支持文本到3D合成、快速生成、高质量渲染及3D风格化功能，适用于多种应用场景。

AI项目与工具 2024年01月01日 41 点赞 0 评论 761 浏览

Mora

Mora是一个多智能体框架，专为视频生成任务设计，通过多个视觉智能体的协作实现高质量视频内容的生成。主要功能包括文本到视频生成、图像到视频生成、视频扩展与编辑、视频到视频编辑以及视频连接。尽管在处理大量物体运动场景时性能稍逊于Sora，Mora仍能在生成高分辨率视频方面表现出色。

AI项目与工具 2024年01月01日 75 点赞 0 评论 773 浏览

StreamMultiDiffusion

StreamMultiDiffusion是一款开源的实时交互式图像生成框架，结合了扩散模型的高质量图像合成能力和区域控制的灵活性。用户可以实时生成和编辑图像，通过文本提示和手绘区域生成特定部分的图像，提供高质量的图像输出。其主要功能包括实时图像生成、指定区域文本到图像生成、直观的用户界面、多提示流批处理架构、快速推理技术、区域控制、稳定化技术和Semantic Palette交互式图像生成。

AI项目与工具 2024年01月01日 95 点赞 0 评论 876 浏览

Stable Video 3D（SV3D）是一款由Stability AI公司开发的多视角合成和3D生成模型，能够从单张图片生成一致的多视角图像，并进一步优化生成高质量的3D网格模型。该模型在视频扩散模型基础上进行改进，提供更好的质量和多视角体验。主要功能包括多视角视频生成、3D网格创建、轨道视频生成、相机路径控制以及新视角合成。SV3D在新视角合成方面取得显著进展，能够生成逼真且一致的视图，提升

AI项目与工具 2024年01月01日 39 点赞 0 评论 634 浏览

VLOGGER

VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型，主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作，包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作，实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性，能够展示原始主体的不同动作和表情。此外，VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。

AI项目与工具 2024年01月01日 12 点赞 0 评论 809 浏览