多模态
CustomVideoX
CustomVideoX是一种基于视频扩散变换器的个性化视频生成框架,能够根据参考图像和文本描述生成高质量视频。其核心技术包括3D参考注意力机制、时间感知注意力偏差(TAB)和实体区域感知增强(ERAE),有效提升视频的时间连贯性和语义一致性。支持多种应用场景,如艺术设计、广告营销、影视制作等,具备高效、精准和可扩展的特点。
书生·筑梦2.0(Vchitect 2.0)
书生·筑梦2.0是一款由上海人工智能实验室开发的开源视频生成大模型,支持文本到视频和图像到视频的转换,生成高质量的2K分辨率视频内容。它具备灵活的宽高比选择、强大的超分辨率处理能力以及创新的视频评测框架,适用于广告、教育、影视等多个领域。
Paper2Poster
Paper2Poster是由加拿大滑铁卢大学、新加坡国立大学等机构推出的学术框架,基于多模态自动化技术从科学论文生成海报。它通过Parser、Planner和Painter–Commenter系统实现内容压缩、布局优化和视觉质量提升,支持将长篇论文转化为结构化视觉海报。Paper2Poster引入PaperQuiz评估方法,确保海报有效传达核心内容,提高生成效率,适用于学术会议、报告、科研展示及教
