VideoRefer VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统,基于增强型视频大型语言模型,实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准,支持对象识别、关系分析、推理预测及多模态交互等功能,适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。 AI项目与工具 2025年06月12日 19 点赞 0 评论 333 浏览
PersonaMagic PersonaMagic 是一种基于文本条件策略的人脸生成技术,通过动态嵌入学习和双平衡机制实现高保真个性化图像生成。该工具可依据文本提示调整人脸风格、表情和背景,同时保持身份特征。支持单图像训练,降低数据需求,并可与其他模型结合使用。实验显示其在文本对齐和身份保持方面表现优异,适用于娱乐、游戏、影视及营销等多个领域。 AI项目与工具 2025年06月12日 67 点赞 0 评论 249 浏览
Argil Argil是一款基于SOTA深度学习技术的AI视频生成平台,支持快速创建个性化AI克隆形象,适用于品牌推广、教育、娱乐等多种场景。平台提供丰富的虚拟形象和灵活的视频编辑功能,如机位控制、肢体语言调整等,提升视频吸引力与真实性。无代码操作简化创作流程,支持多语言及多平台适配,适合个人创作者与企业使用。 AI项目与工具 2025年06月12日 37 点赞 0 评论 360 浏览
RLCM RLCM是由康奈尔大学开发的一种基于强化学习的文本到图像生成框架,通过微调一致性模型以适应特定任务的奖励函数,显著提升生成效率与图像质量。其核心技术包括强化学习、策略梯度优化及任务导向的奖励机制,适用于艺术创作、数据集扩展、图像修复等多个领域,具有高效的推理能力和对复杂任务的适应性。 AI项目与工具 2025年06月12日 69 点赞 0 评论 255 浏览
Inf Inf-DiT是由清华大学与智谱AI联合开发的图像上采样技术,基于扩散模型并引入单向块注意力机制(UniBA),有效降低内存消耗,支持超高分辨率图像生成。其采用扩散变换器(DiT)架构,具备灵活的图像上采样能力,并通过全局图像嵌入和交叉注意力机制增强图像的一致性与质量。该技术适用于设计、影视、印刷及医学等领域,具有广泛的应用前景。 AI项目与工具 2025年06月12日 84 点赞 0 评论 217 浏览
TryOffAnyone TryOffAnyone是一款基于Latent Diffusion Models技术的AI工具,专注于从人物照片中提取服装区域并生成平铺展示图。它具备在线图片处理、智能服装识别、背景去除和图像优化等功能,广泛应用于电商平台的商品展示、个性化推荐、库存管理和图像检索等领域,帮助提升用户体验和运营效率。 AI项目与工具 2025年06月12日 41 点赞 0 评论 505 浏览
MagicMirror MagicMirror是一款基于深度学习的开源AI工具,提供面部替换、发型调整和穿搭模拟功能。其特点包括易用性、硬件兼容性、隐私保护及轻量化设计,支持离线运行,适用于个人娱乐、创意设计及虚拟角色扮演等场景。 AI项目与工具 2025年06月12日 17 点赞 0 评论 311 浏览
AIGCPanel AIGCPanel是一款开源的AI数字人系统,支持视频合成、声音合成与声音克隆等功能。它利用自然语言处理、计算机视觉技术和深度学习算法,实现高质量的音视频同步和自然语音生成。系统具有多语言支持、模型管理和日志查看功能,可应用于影视制作、虚拟主播、教育培训等多个领域。 AI项目与工具 2025年06月12日 69 点赞 0 评论 248 浏览
Luvvoice Luvvoice 是一款基于 AI 技术的在线文本到语音转换平台,提供超过 200 种高质量 AI 声音和 70 多种语言选项。用户可以通过上传 PDF 或 TXT 文件,将文本快速转换为自然语音,适用于教育、内容创作、营销及无障碍服务等多个场景。平台支持多种语言调节功能,生成的音频文件支持 MP3 格式下载。 AI项目与工具 2025年06月12日 33 点赞 0 评论 386 浏览
VE VE-Bench是北京大学MMCAL团队研发的一款视频编辑质量评估工具,包含数据库(VE-Bench DB)和量化评估模块(VE-Bench QA)。它综合考虑了视觉质量、文本-视频一致性及源视频与编辑后视频的动态关联性,旨在实现与人类感知一致的精准评估。适用于电影制作、短视频优化、广告行业等多个领域。 AI项目与工具 2025年06月12日 12 点赞 0 评论 371 浏览