AI项目与工具

Video Alchemist

Video Alchemist是一款由Snap公司研发的视频生成模型,支持多主体和开放集合的个性化视频生成。它基于Diffusion Transformer模块,通过文本提示和参考图像生成视频内容,无需测试优化。模型引入自动数据构建和图像增强技术,提升主体识别能力。同时,研究团队提出MSRVTT-Personalization基准,用于评估视频个性化效果。该工具适用于短视频创作、动画制作、教育、剧

PSHuman

PSHuman是一款基于跨尺度多视图扩散模型的单图像3D人像重建工具,仅需一张照片即可生成高保真度的3D人体模型,支持全身姿态和面部细节的精确重建。其核心技术包括多视角生成、SMPL-X人体模型融合及显式雕刻技术,确保模型在几何和纹理上的真实感。该工具适用于影视、游戏、VR/AR、时尚设计等多个领域,具备高效、精准和易用的特点。

NovaMSS

NovaMSS是一款基于AI技术的音乐源分离工具,可精准分离人声、伴奏、贝斯、鼓点等音轨。支持多种音频格式和批量处理,操作简便,适用于音乐制作、音频修复及教学资源开发等多种场景。提供普通与专业模型,满足不同用户的音质需求,适合创作者和音乐爱好者使用。

Wear

Wear-Any-Way是阿里巴巴拍立淘团队研发的虚拟试穿框架,通过稀疏对应对齐机制实现高保真、可定制的试穿效果。用户可自由调整服装样式、颜色及搭配方式,适用于多种场景。具备多件服装搭配、多场景支持及智能推荐功能,适用于电商、时尚设计等领域,提升用户体验与效率。

ezpic

ezpic是一款基于AI技术的在线图片背景移除工具,支持PNG和JPG格式,能快速准确地去除背景并提供背景颜色选择功能。用户可通过简单操作实现图片美化,提升设计效率。适用于电商、设计、社交媒体、办公及教育等多个场景,完全免费,适合各类用户使用。

GameFactory

GameFactory 是由香港大学与快手科技联合研发的AI框架,专注于解决游戏视频生成中的场景泛化问题。它基于预训练视频扩散模型,结合开放域数据与高质量游戏数据,通过多阶段训练实现动作可控的多样化场景生成。具备高精度动作控制、交互式视频生成及丰富场景支持,适用于游戏开发、自动驾驶模拟及具身智能研究等领域。

彩漩

彩漩是一款基于AI技术的PPT制作平台,支持一键生成高质量演示文稿,提供智能配图、内容优化及多人协作功能。平台具备安全分享机制,支持多种格式转换和数据追踪,适用于教育、企业培训及市场营销等多种场景,兼容多端使用,提升内容创作与传播效率。

FramePainter

FramePainter 是一款基于AI的交互式图像编辑工具,结合视频扩散模型与草图控制技术,支持用户通过简单操作实现精准图像修改。其核心优势包括高效训练机制、强泛化能力及高质量输出。适用于概念艺术、产品展示、社交媒体内容创作等场景,具备低训练成本和自然的图像变换能力。

百聆

百聆是一款开源语音对话系统,融合语音识别、语音活动检测、大语言模型和语音合成技术,实现自然流畅的语音交互。支持低延迟运行,无需GPU,适用于边缘设备。具备记忆、工具调用和任务管理等功能,适用于智能家居、个人助理、车载系统等多种场景,提供高效的语音交互解决方案。

LineArt

LineArt是一种无需训练的高质量设计绘图外观迁移框架,能将复杂外观特征准确转移到设计图纸上,同时保留结构细节。其技术基于模拟人类视觉认知过程,结合艺术经验指导扩散模型,支持工业设计、室内设计、服装设计等多个领域应用。具备高效、高保真和易用性等特点,适用于快速生成逼真效果和优化设计流程。