Transformer
Video Alchemist
Video Alchemist是一款由Snap公司研发的视频生成模型,支持多主体和开放集合的个性化视频生成。它基于Diffusion Transformer模块,通过文本提示和参考图像生成视频内容,无需测试优化。模型引入自动数据构建和图像增强技术,提升主体识别能力。同时,研究团队提出MSRVTT-Personalization基准,用于评估视频个性化效果。该工具适用于短视频创作、动画制作、教育、剧
Memory Layers
Memory Layers是一种由Meta研发的技术,通过引入可训练的键值查找机制,为模型增加了额外参数而不增加计算负担。它通过稀疏激活模式补充计算密集型前馈层,显著提升了模型在事实性任务中的表现,同时增强了模型的记忆与知识获取能力。Memory Layers的核心优势在于其高效的信息存储与检索机制,并且在问答、语言模型、推荐系统、知识图谱及对话系统等场景中具有广泛应用前景。
Large Motion Model
Large Motion Model(LMM)是一款由新加坡南洋理工大学S-Lab和商汤科技合作研发的多模态运动生成框架。它支持从文本、音乐等多种模态生成逼真运动序列,具备高度精准的身体部位控制能力和强大的泛化能力。通过整合多样化的MotionVerse数据集以及创新性的ArtAttention机制和预训练策略,LMM在多个领域展现出高效的应用潜力,包括动画、虚拟现实、影视特效及运动分析等。
ModernBERT
ModernBERT是一种基于Transformer架构的新型编码器-only模型,是对经典BERT模型的深度优化版本。它通过在大规模数据集上的训练,提升了对长上下文的理解能力,并在信息检索、文本分类、实体识别等多个自然语言处理任务中展现出卓越性能。此外,ModernBERT在速度和资源效率方面均有显著改进,适合应用于多个领域。