标记 - 智狐AI导航

VoxInstruct

VoxInstruct是清华大学开源的语音合成技术，能够根据人类语言指令生成高质量的语音。该系统采用统一的多语言编解码器语言建模框架，将传统的文本到语音任务扩展到了更广泛的人类指令到语音任务。VoxInstruct通过引入语音语义标记和多种无分类器指导策略，提升了语音合成的自然度和表现力。它支持多语言和跨语言合成，适用于智能语音助手、有声读物、教育培训等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 875 浏览

PlayDiffusion

PlayDiffusion是Play AI推出的音频编辑模型，基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列，通过掩码处理和去噪生成高质量音频，保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能，具有非自回归特性，提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。

AI项目与工具 2025年06月11日 94 点赞 0 评论 827 浏览

在线PS软件

稿定设计PS是一款专业精简的在线ps图片处理软件，PS软件网页版,免下载、免安装，直接在浏览器打开网页版就可随时随地用它修正，调整和美化您的图片。

图片处理 2025年06月05日 48 点赞 0 评论 816 浏览

Move AI

Move AI 是一款基于AI和计算机视觉的无标记动作捕捉工具，可将普通摄像头拍摄的2D视频转换为高精度3D运动数据。支持实时追踪、多摄像头配置及多种格式导出，适用于影视、游戏、体育分析、VR/AR等领域，提供高效、低成本的解决方案。

AI项目与工具 2025年06月12日 35 点赞 0 评论 731 浏览

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型，能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出，可分别生成人声与伴奏，便于后期编辑。SongGen通过创新的音频标记化和训练策略，显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准，适用于音乐创作、视频配乐、教育辅助等多个领域。

AI项目与工具 2025年06月12日 78 点赞 0 评论 725 浏览

MTVCrafter是由中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架，基于4D运动标记化（4DMoT）和运动感知视频扩散Transformer（MV-DiT）实现高质量动画生成。该工具直接对3D运动序列建模，支持泛化到多种角色和风格，保持身份一致性，并在TikTok基准测试中取得优异成绩。其应用场景包括数字人动画、虚拟试穿、沉浸式内

AI项目与工具 2025年06月11日 50 点赞 0 评论 690 浏览

LongVU

LongVU是一款由Meta AI团队研发的长视频理解工具，其核心在于时空自适应压缩机制，可有效减少视频标记数量并保留关键视觉细节。该工具通过跨模态查询与帧间依赖性分析，实现了对冗余帧的剔除及帧特征的选择性降低，并基于时间依赖性进一步压缩空间标记。LongVU支持高效处理长视频，适用于视频内容分析、搜索索引、生成描述等多种应用场景。

AI项目与工具 2025年06月12日 65 点赞 0 评论 643 浏览

Teacher2Task

Teacher2Task是一个由谷歌团队研发的多教师学习框架，其核心在于引入教师特定的输入标记并重新构建训练过程，以减少对人工聚合方法的依赖。通过将训练数据转化为多个子任务，该框架能够从不同教师的多样化预测中学习，提高模型的性能和鲁棒性，同时降低标签不准确性的风险。它适用于机器翻译、图像理解、自然语言处理等多个领域，显著提升了数据利用效率。

AI项目与工具 2025年06月12日 39 点赞 0 评论 612 浏览

轻闪PDF

AI驱动的PDF工具，提供编辑、转换、OCR识别、签名、注释、与PDF对话等功能，支持桌面端、移动设备与浏览器访问。

格式转换 2025年06月05日 78 点赞 0 评论 604 浏览

UniRig

UniRig是由清华大学计算机系与VAST联合开发的自动骨骼绑定框架，基于自回归模型和交叉注意力机制，可高效生成高质量骨骼结构和蒙皮权重。其支持多种3D模型类型，涵盖动漫角色、有机与无机结构等，广泛应用于动画制作、游戏开发、虚拟角色设计等领域。项目提供开源代码和详细文档，助力提升3D动画制作效率与质量。

AI项目与工具 2025年06月11日 81 点赞 0 评论 598 浏览

标记

首页

标记

列表

默认

浏览次数

发布日期