标记

MAETok

MAETok是一种基于掩码建模的图像标记化方法,通过自编码器结构学习更具语义丰富性的潜在空间,提升图像生成质量与训练效率。它支持高分辨率图像生成,具备多特征预测能力和灵活的潜在空间设计,适用于娱乐、数字营销、计算机视觉等多个领域。实验表明其在ImageNet数据集上表现优异。

Teacher2Task

Teacher2Task是一个由谷歌团队研发的多教师学习框架,其核心在于引入教师特定的输入标记并重新构建训练过程,以减少对人工聚合方法的依赖。通过将训练数据转化为多个子任务,该框架能够从不同教师的多样化预测中学习,提高模型的性能和鲁棒性,同时降低标签不准确性的风险。它适用于机器翻译、图像理解、自然语言处理等多个领域,显著提升了数据利用效率。

LongVU

LongVU是一款由Meta AI团队研发的长视频理解工具,其核心在于时空自适应压缩机制,可有效减少视频标记数量并保留关键视觉细节。该工具通过跨模态查询与帧间依赖性分析,实现了对冗余帧的剔除及帧特征的选择性降低,并基于时间依赖性进一步压缩空间标记。LongVU支持高效处理长视频,适用于视频内容分析、搜索索引、生成描述等多种应用场景。

Fluid

Fluid是一种基于连续标记和随机生成顺序的文本到图像生成模型,具有卓越的视觉表现力和全局结构捕捉能力。它通过自回归架构和Transformer模型,逐步预测序列中的下一个元素,构建与文本提示相匹配的高质量图像。Fluid在多个基准测试中取得了优异成绩,并广泛应用于艺术创作、媒体娱乐、广告营销等领域。

M2UGen

M2UGen是由腾讯PCG ARC实验室与新加坡国立大学共同研发的一款多模态音乐理解和生成框架,支持从文本、图像、视频等多种模态输入生成相应音乐。它具有强大的音乐理解能力、灵活的音乐编辑功能以及多样化的应用场景,适用于音乐制作、影视配乐、音乐教育等多个领域。凭借其创新的技术架构和卓越的表现力,M2UGen已成为当前最优秀的多模态音乐生成工具之一。

VoxInstruct

VoxInstruct是清华大学开源的语音合成技术,能够根据人类语言指令生成高质量的语音。该系统采用统一的多语言编解码器语言建模框架,将传统的文本到语音任务扩展到了更广泛的人类指令到语音任务。VoxInstruct通过引入语音语义标记和多种无分类器指导策略,提升了语音合成的自然度和表现力。它支持多语言和跨语言合成,适用于智能语音助手、有声读物、教育培训等多个领域。